Давайте поговорим о том, как искажения данных влияют на прогнозы ИИ

Данные - это топливо для искусственного интеллекта (ИИ). Это мое мнение после исследования этой идеи, но, вероятно, многие эксперты согласятся, поскольку это мнение широко распространено. Сами по себе данные не могут поддерживать прогнозы ИИ, но без данных система не будет делать прогнозов. Ошибки в данных являются серьезной проблемой для прогнозов ИИ, потому что модель ИИ дает неправильные предложения или ответы.

« Доброта непобедима, но только когда она искренна, без лицемерия или притворства. Ибо что может сделать даже самый злой человек, если вы продолжите проявлять доброту и, если представится возможность, мягко укажете, где они пошли не так, правильно, когда они пытаются причинить вам вред? ”- МАРКУС АВРЕЛИУС, РАЗМЫШЛЕНИЯ, 11.18 .5.9a

Предубеждения в данных могут существовать двумя способами - систематически и случайно.

Систематически: если мы записываем расовую принадлежность человека, эта информация отправляется модели, которая учится у нее, и предоставляет только стереотип. Человек ищет домашнее животное, и в данных, которые он вводит, говорится, что он хочет собаку, и указаны только породы собак. Человек может фильтровать других домашних животных из-за систематической предвзятости.

Случайно. модель может получить обратную связь как неправильную, но на самом деле это правильно. При наличии предвзятости данных (существующей в одном или обоих направлениях) прогноз ИИ не может быть точным и вынуждает делать выводы необъективными.

Ошибки в данных влияют на прогнозы ИИ по разным причинам. Один из способов, которым смещения данных могут повлиять на прогнозы ИИ, - это влияние на данные, которые вводятся в алгоритм машинного обучения. Одним из примеров этого является случай, когда человек намеренно или непреднамеренно искажает данные, вводимые в алгоритм машинного обучения. Например, когда человек классифицирует данные для алгоритма машинного обучения, он может классифицировать группу людей как «белых» и «мужских» без учета других переменных, таких как цвет кожи, сексуальная ориентация, возраст или пол.

Человек мог сделать это, не осознавая, что алгоритм машинного обучения будет анализировать эти данные и таким же образом классифицировать все будущие данные. Другой способ, которым смещения данных могут повлиять на прогнозы ИИ, - это влияние данных на прогноз. Например, алгоритмы машинного обучения могут научиться предсказывать «низкое» качество жизни из-за данных, вводимых в алгоритм машинного обучения, например, если данные, введенные в алгоритм машинного обучения, принадлежат всем безработным. Алгоритм машинного обучения предсказывает, что у безработных людей «низкое» качество жизни, потому что он узнал, что у безработных «низкое» качество жизни.

Третий способ, которым смещения данных могут повлиять на прогнозы ИИ, - это влияние данных на алгоритм машинного обучения. Например, если данные, введенные в алгоритм машинного обучения, - это все «черные» люди, которые не имеют работы, когда алгоритм машинного обучения делает прогноз, он предсказывает, что «черные» безработные люди имеют «низкое» качество жизни. .

Четвертый способ, которым смещения данных могут повлиять на прогнозы ИИ, - это влияние данных на людей, которые их используют. Например, если человек, который хочет купить дом, использует данные из алгоритма машинного обучения ИИ, этот человек может быть предвзятым данными и выбрать дом на основе прогнозов машины. Если прогнозы машины необъективны, человек может выбрать дом, который не входит в его ценовой диапазон.

Смещения данных также могут повлиять на прогнозы ИИ из-за того, что данные влияют на модель, чтобы предсказать результат. Например, если в алгоритм машинного обучения вводятся данные о людях с избыточным весом и высоким потреблением сахара, он предсказывает, что люди с избыточным весом и высоким потреблением сахара будут иметь «высокий» шанс заболеть диабетом. Это связано с тем, что алгоритм машинного обучения узнал, что люди с избыточным весом и высоким потреблением сахара имеют «высокий» шанс заболеть диабетом. Наконец, смещения данных могут повлиять на прогнозы ИИ из-за влияния данных на принятие решений. Например, если алгоритм машинного обучения используется для прогнозирования того, следует ли кому-то разрешить покупку предмета, систематическая ошибка в данных, вводимых в алгоритм машинного обучения, может привести к тому, что он предскажет, что кому-то не должно быть разрешено покупать предмет. из-за их демографического характера.

Главный эффект смещения данных состоит в том, что он искажает имеющиеся данные и качество сделанного прогноза. Предвзятые данные - серьезная проблема, когда дело доходит до прогнозов ИИ. Они возникают из различных источников, включая социальные сети, то, что мы ищем в Интернете и на что нажимаем. По мере того, как мир становится все более связанным с помощью этих технологий, количество ошибок в данных будет только увеличиваться, и они будут влиять на прогнозы.

Еще одно предубеждение - это когда мы используем источник данных, которым манипулировали люди. Это может произойти, когда люди публикуют ложную информацию, чтобы повлиять на выборы или повлиять на общественное мнение. Затем ИИ будет основывать свои прогнозы на этих ложных данных.

Если система искусственного интеллекта обучается с использованием предвзятых данных, то, скорее всего, она также будет иметь предвзятый вывод из этих данных. Например, если система искусственного интеллекта обучена сортировать резюме по уровню образования, а резюме представляют население, имеющее доступ только к среднему школьному образованию, то система искусственного интеллекта, скорее всего, отсортирует резюме по наивысшему уровню образования. Это потому, что резюме представляют население, и что население имеет доступ только к среднему школьному образованию. Чтобы избежать этого, систему ИИ можно обучить на резюме, которое представляет более разнообразную популяцию.

Смещения данных - это ошибки, которые случаются во время сбора данных. Они могут быть вызваны смещением выборки, смещением интервьюера или ошибками при вводе данных. Эти предубеждения важно учитывать при анализе данных. Ошибка выборки возникает, когда подмножество совокупности выбирается для представления всего. Например, если интервьюер поговорит с тремя безработными, но только с одним, который работает, у них будет предвзятое представление о населении. Предвзятость интервьюера возникает, когда на ответ интервьюируемого влияет то, как интервьюер выглядит или действует. Например, если интервьюеру кажется, что ему неудобно задавать вопрос о поле, респондент может почувствовать себя некомфортно и решить не отвечать на вопрос. Ошибки при вводе данных могут быть вызваны опечатками, неправильным чтением чисел в форме опроса или ошибками при записи данных интервью. Ошибки в данных - это распространенные ошибки, которые могут привести к неверным выводам. Если вы анализируете данные, важно учитывать эти предубеждения.

Когда вы тренируете любую модель, вы рассказываете ей о мире с помощью набора примеров. Например, если вы тренируете модель распознавать изображения, вы должны показать ей несколько фотографий кошек и несколько фотографий собак. А затем он усвоит общее правило, что кошки и собаки разные. Конечно, могут быть кошки, похожие на собак, и собаки, похожие на кошек. Но, показав модели достаточно примеров, она может научиться правильно классифицировать кошек и собак. Так работают многие модели машинного обучения.

Итак, как это работает, если вы классифицируете человеческое поведение? Что ж, вы можете показать свою модель кучу примеров людей, которые, вероятно, купят продукт, и кучу примеров людей, которые не покупают. А затем он мог бы усвоить общее правило, согласно которому люди, которые ведут себя как люди из первой группы, скорее всего, купят продукт, а люди из второй группы - нет. Проблема в том, что люди из первой группы, вероятно, с большей вероятностью купят продукт, чем люди из второй группы. А это означает, что модель, вероятно, предсказывает, что люди, которые ведут себя как люди в первой группе, с большей вероятностью купят продукт. Таким образом, даже если ваша модель технически верна, она, скорее всего, неверна по правильным причинам.

Это называется «переобучением» вашей модели. Переобучение - это когда модель предсказывает другой результат, чем известная популяция. Это означает, что модель очень хороша для поиска известной совокупности, но не очень хороша для предсказания результата для новой выборки. Он отлично работает с данными обучения, но, вероятно, даст неправильные ответы в реальном мире.

Это настоящая проблема, когда вы используете его для принятия важных решений. Решение проблемы переобучения - увеличить размер выборки, чтобы уменьшить систематическую ошибку данных. Если у вас высокая систематическая ошибка данных, вам необходимо увеличить размер выборки. Если у вас низкая систематическая ошибка данных, вы можете уменьшить размер выборки. Вот почему так важно понимать, как систематическая ошибка данных может в первую очередь повлиять на вашу модель. Чем больше вы знаете о смещении данных, тем лучше будет ваша модель искусственного интеллекта.

Как это исправить?

Лучший способ решить эту проблему - получить данные от случайной группы людей. И это не всегда возможно, потому что многие модели машинного обучения требуют доступа к большому количеству данных. А это означает, что вы не сможете получить данные, необходимые для обучения вашей модели, от случайной группы людей. Но есть кое-что, что вы можете сделать, чтобы попытаться решить эту проблему. Например, вы можете взять те данные, которые у вас есть, и устранить некоторую предвзятость. Если у вас есть данные о людях, купивших ваш продукт, вы можете удалить информацию о людях, купивших продукт. И это может помочь уменьшить систематическую ошибку в вашей модели.

Есть ли другие способы уменьшить предвзятость?

да.

Есть несколько способов уменьшить предвзятость. Например, вы можете использовать модель другого типа. Если вы пытаетесь предсказать, купит ли кто-то продукт, вы можете попробовать использовать модель «дерева решений». Они используют разные типы данных, чтобы попытаться предсказать результат.

И это может помочь уменьшить предвзятость вашей модели. Вы также можете попробовать использовать другой тип данных. Например, если вы используете модель, чтобы предсказать, купит ли человек продукт, вы можете попытаться обучить модель предсказывать, купит ли человек другой продукт.

Или вы можете научить его предугадывать, купит ли человек продукт, отличный от продукта, который вы на самом деле пытаетесь продать. И это может уменьшить предвзятость вашей модели. Вы также можете попробовать использовать модель машинного обучения «случайного леса». Это тип модели машинного обучения, в которой используется множество различных деревьев решений, чтобы попытаться предсказать результат. И это может помочь уменьшить предвзятость вашей модели.

Поговорим о очистке данных

Очистка данных - это процесс удаления любых записей, не имеющих отношения к вашему бизнесу. Это означает, что вы удаляете все записи, не имеющие отношения к модели искусственного интеллекта, которую вы пытаетесь разработать. Например, если вы пытаетесь разработать модель для прогнозирования невыполнения обязательств по ипотеке, вам нужно удалить все записи, не имеющие отношения к ипотеке. Это означает, что необходимо удалить все записи, не имеющие отношения к ипотеке. Удаляя эти записи, вы создаете набор образцов, релевантный вашему бизнесу. Вы удаляете нерелевантные данные и сохраняете актуальные.

Это наиболее важная часть очистки данных. Если вы не удалите нерелевантные данные, у вас будет модель, не имеющая отношения к вашему бизнесу.

Это можно сделать самостоятельно или нанять специалиста по обработке данных, который очистит ваши данные. Очистка данных - одна из важнейших частей построения модели искусственного интеллекта.

Вывод

Хотя ИИ - очень мощный инструмент, он также может быть очень опасным, если его данные предвзяты. Предвзятый ИИ может неправильно определять закономерности, что приводит к ошибочным решениям. Это также может привести к предвзятому обучению, что может привести к тому, что ИИ будет принимать необъективные решения в будущем.

Предвзятые данные - серьезная проблема при прогнозировании будущего. Они учитывают, насколько искажены данные и насколько точны прогнозы. Следуя этим передовым методам, вы сможете избежать предвзятости в ИИ.

Какие еще искажения данных, которые вы видели, влияют на ваш анализ? Оставьте комментарий ниже и расскажите нам об этом.

Если вам интересно прочитать некоторые из других моих сообщений в блоге на DataDriven Investor, прочтите Управление данными и искусственный интеллект: что это значит для вас?

Я также написал в блоге сообщение под названием Этические аспекты искусственного интеллекта на рабочем месте ».

Призыв к действию

DDI (DataDriven Investor) недавно запустила новую платформу, на которой любой может заказать платную индивидуальную сессию с экспертом по своему выбору. DDI попросили меня присоединиться к их группе советников и экспертов в категории Data Science, AI и ML. Вот мой профиль; Https://app.ddichat.com/experts/yattish-ramhorry.

Если вы хотите заказать со мной беседу один на один, вы можете сделать это через эту платформу. Надеюсь на дальнейшее сотрудничество с вами!

#ResponsibleAI #EthicalAI #AIEthics

Первоначально опубликовано на https://www.datadriveninvestor.com 22 июля 2021 г.