Обучающие данные: веха машинного обучения

Машинное обучение – это тип ИИ, который учит машины обучаться, интерпретировать и прогнозировать результаты на основе набора данных. Поскольку за последние несколько лет мир — и Интернет — выросли в геометрической прогрессии, процессы машинного обучения стали обычными организациями всех видов. Например, компании в сфере здравоохранения используют машинное обучение для более эффективного выявления и лечения заболеваний, а в сельскохозяйственном секторе машинное обучение помогает прогнозировать урожайность.

Машинное обучение предполагает, что компьютеры находят полезную информацию без указаний, где искать, в отличие от традиционных вычислений, в которых алгоритмы представляют собой наборы явно запрограммированных инструкций. Машинное обучение делает это, используя алгоритмы, которые обучаются на данных, на которых они обучаются в итеративном процессе, чтобы генерировать выходные данные и автоматизировать принятие решений. сильные > процессы.

Три основных компонента машинного обучения

Есть три основных функциональных ингредиента ML.

Данные. Набор данных, который вы хотите использовать, должен быть хорошо структурированным и точным. Данные, которые вы используете, могут быть помечены или не помечены. Немаркированныеданные – это примеры элементов, например фото, видео, новостные статьи — которые не нуждаются в дополнительных пояснениях, а помеченные дополняются: неразмеченная информация объединяется и к ним добавляется пояснение с тегом.
Алгоритм. Существуют различные типы алгоритмов, которые можно использовать (например, линейная регрессия, логистическая регрессия). Выбор правильного алгоритма — это сочетание потребностей бизнеса, спецификаций, экспериментов и имеющегося времени.
Модель. «Модель» — это результат алгоритма машинного обучения, работающего с данными. Он представляет собой правила, числа и любые другие специфичные для алгоритма структуры данных, необходимые для прогнозирования.

Как используется машинное обучение

Успешные алгоритмы машинного обучения могут использоваться для самых разных целей. Директор Массачусетского технологического института (MIT) Томас В. Мэлоун написал в недавнем исследовании:

”Функция системы машинного обучения может быть описательной, что означает, что система использует данные для объяснения того, что произошло; прогностический, то есть система использует данные, чтобы предсказать, что произойдет; или предписывающий, что означает, что система будет использовать данные, чтобы давать рекомендации о том, какие действия следует предпринять.”

Что такое обучающие данные

Обучающие данные — это исходные данные, используемые для обучения моделей машинного обучения. Наборы обучающих данных передаются алгоритмам машинного обучения, чтобы они могли научиться делать прогнозы или выполнять желаемую задачу. Этот тип данных является ключевым, поскольку он помогает машинам достигать результатов и работать правильно, как показано на графике ниже.

Инновационная сила моделей машинного обучения заключается в том, что они обучаются и совершенствуются с течением времени, поскольку они подвергаются воздействию соответствующих обучающих данных. Некоторые данные сохраняются из обучающих данных для использования в качестве «оценочных данных», которые подтверждают и проверяют, насколько точна модель машинного обучения. Этот тип данных содержится в наборах данных проверки и тестирования, которые будут обсуждаться позже.

Важность обучающих данных

Обучающие данные являются ключевой частью процесса машинного обучения. При создании набора обучающих данных нужно учитывать несколько аспектов. Основное внимание уделяется размеру наборов данных, который зависит от использования машинного обучения: чем сложнее использование, тем больше размер набора данных. В случае неконтролируемого обучения, чем больше шаблонов вы хотите, чтобы ваша модель идентифицировала, тем больше примеров ей потребуется. Вам нужен масштабируемый алгоритм обучения, который может работать с любым объемом данных.

Второе, на что следует обратить внимание, — это качество данных. Что касается этого аспекта, важно снабжать систему тщательно отобранными данными. Чем выше качество ваших обучающих данных, тем лучше будет ваша модель машинного обучения, особенно на ранних этапах.

Качество используемых вами данных означает сбор реальных данных, которые точно имитируют то, как приложение будет получать внешние входные данные, а также разнообразные данные для уменьшения вероятности предвзятости, которые мы позже обсудим.

Чтобы понять, насколько важны обучающие данные, подумайте о производителях транспортных средств, которые пытаются решить проблему автономного вождения. Качество данных имеет важное значение для обеспечения безопасной и ожидаемой работы автономных транспортных средств. Транспортным средствам недостаточно хорошо работать в смоделированных хороших погодных условиях или на одном типе дороги. Они должны безупречно работать в любых погодных условиях и при любом вообразимом дорожном сценарии.

Имейте также в виду, что качество данных зависит от включения конечного пользователя в ваш продукт/услугу. Наиболее успешными проектами ИИ являются те, которые интегрируют сбор данных в течение жизненного цикла продукта. Он должен быть встроен в ядро самого продукта, чтобы каждый раз, когда пользователь взаимодействует с ним, вы собирали данные об этом взаимодействии. Основная цель — использовать постоянный поток данных для улучшения вашего предложения для пользователя. Вспомните Spotify, который использует систему искусственного интеллекта под названием совместная фильтрация для создания персонализированных плейлистов Discover Weekly, которые помогают фанатам выбирать новую музыку, которая им нравится. . Чем больше пользователь слушает и ищет музыку, которая ему нравится, тем больше приложение будет знать, что порекомендовать.

Как машинное обучение может учиться на данных

Машинное обучение предлагает несколько различных способов обучения на основе данных:

Контролируемое обучение: его можно рассматривать как практический подход, поскольку в нем используются помеченные данные.Люди должны маркировать, маркировать или аннотировать данные в соответствии с их критериями, чтобы научить модель прогнозировать «правильные» результаты, которые заранее определены.
Обучение без учителя: его можно рассматривать как подход, основанный на поиске общих закономерностей, поскольку в нем используются неразмеченные данные и вместо предсказания правильного На выходе перед моделями ставится задача найти закономерности, сходства и отклонения, которые затем можно применить к другим данным, демонстрирующим аналогичное поведение.
Обучение с подкреплением: оно использует немаркированные данные и использует механизм обратной связи. Когда он выполняет задачу правильно, он получает положительную обратную связь, которая укрепляет модель в соединении целевых входов и выходов. Точно так же он может получить отрицательный отзыв о неправильных решениях.

Проверка и тестирование

Проверка и тестирование начинаются с разделения набора обучающих данных. Разделение Valid-Test – это метод оценки эффективности вашей модели машинного обучения. Вам нужно разделить данные, потому что вы не хотите, чтобы ваша модель чрезмерно училась на обучающих данных и не работала хорошо. Но больше всего вам нужно оценить, насколько хорошо ваша модель обобщает.

Следовательно, вы воздержались от обучающего набора данных, проверки и тестирования подмножеств для осмысленной оценки вашей модели. Обратите внимание, что типичное соотношение данных для обучения, проверки и тестирования составляет около 50:25:25. Краткое объяснение роли каждого из этих наборов данных приведено ниже.

Проверочный набор данных: полезен при выборе модели. Данные, входящие в этот набор, будут использованы для нахождения оптимальных значений параметров рассматриваемой модели. При работе с моделями машинного обучения обычно необходимо протестировать несколько моделей с различными значениями параметров, чтобы найти оптимальные значения, обеспечивающие максимально возможную производительность. Поэтому, чтобы выбрать лучшую модель, вы должны оценить каждую из них.
Тестирование набора данных: когда вы настроили модель, выполнив оптимизацию параметров, вы должны получить окончательную модель. Тестовый набор используется для обеспечения беспристрастной оценки производительности этой модели и гарантии того, что она может хорошо обобщать новые, невидимые данные.

Предвзятость в машинном обучении

Предвзятость в машинном обучении определяется как феномен наблюдения за результатами, которые систематически искажаются из-за ошибочных предположений. Это можно интерпретировать как точность наших предсказаний. Большое смещение приведет к неточному прогнозу, поэтому вам нужно знать, что такое смещение, чтобы предотвратить его. Неточный прогноз может быть получен из-за

Существуют методы устранения предвзятости, и они связаны с качеством обучающих данных. Безусловно, они должны быть максимально разнообразными, включать как можно больше релевантных групп данных. Чем более инклюзивным является набор данных, тем меньше вероятность того, что он закроет глаза на данную группу данных. Вы должны идентифицировать репрезентативные данные.

В целом предвзятость снижает потенциал ИИ для бизнеса и общества, поощряя недоверие и приводя к искаженным результатам. Любая ценность систем машинного обучения с точки зрения эффективности или производительности будет уничтожена, если алгоритмы дискриминируют людей.

Каковы различные типы предвзятости в машинном обучении

Смещение выборки: если выборочные данные, используемые для обучения моделей, не воспроизводят реальный сценарий, модели открываются для части проблемного пространства. Примером может служить программное обеспечение для распознавания лиц, в основном обученное на изображениях белых мужчин.
Предвзятое отношение: возникает из-за культурных стереотипов. Социальный статус и пол могут стать моделью. Следствием этого является то, что результаты будут искажены против людей определенной группы. Когда программное обеспечение, используемое для найма талантов, получает в основном мужские резюме, оно узнает, что мужчины предпочтительнее других профилей.
Алгоритмическая погрешность: может возникнуть, когда используемый алгоритм не подходит для текущего приложения. Это ошибка, возникающая из-за ошибки подхода. Эта предвзятость может возникнуть из-за неправильного архитектурного дизайна алгоритма или из-за непреднамеренных решений, касающихся способа сбора данных. Довольно сложно обращаться.
Смещение исключения: это происходит, когда важные данные исключаются из обучающего набора данных. Например, представьте, что у вас есть набор данных о продажах клиентов в Америке и Европе. 98% клиентов из Америки, поэтому вы решили удалить данные о местоположении, думая, что это не имеет значения. Это означает, что ваша модель не будет учитывать тот факт, что ваши европейские клиенты тратят в два раза больше.

Как компании используют машинное обучение

Каждая компания так или иначе использует машинное обучение в своих продуктах и услугах. Похоже, что машинное обучение становится ожидаемой функцией. Мы используем его, чтобы сделать человеческие задачи легче, быстрее и лучше, чем раньше.

Как было сказано во введении, примером машинного обучения, применяемого к потреблению контента, является Netflix с его персонализацией рекомендаций фильмов, чтобы научиться развлекать мир. . Пользователи, которые смотрят A, скорее всего, посмотрят B. Netflix использует историю просмотров других пользователей со схожими вкусами, чтобы порекомендовать, что вам больше всего интересно посмотреть дальше.

Рекомендация по продукту – одно из самых успешных применений машинного обучения в бизнесе. Они будут вытягивать перед вами те продукты, которые вы, скорее всего, купите, в соответствии с продуктом, который вы ранее покупали и просматривали. Например, Amazon использует историю посещений пользователя, чтобы всегда держать эти продукты в поле зрения клиента.

Машинное обучение также используется рекламодателями для так называемой рекламы на основе машинного обучения. Использование машинного обучения в этой области имеет основополагающее значение, особенно из-за изменений, внесенных обновлениями Apple для iOS. Конфиденциальность является их ключевой особенностью, и это сделало для маркетологов еще более сложной оптимизацию ROI своих кампаний, поскольку точный таргетинг стал затруднительным. По мере того, как реклама становится все более сложной, вам нужно полагаться на аналитические возможности и возможности оптимизации в реальном времени, которые может предоставить алгоритм.

Здесь, в Mapendo, Jenga, наша запатентованная технология искусственного интеллекта, собирает десятки тысяч данных, связанных с заданной темой, находит закономерности и может предсказать возможный результат. маркетинговой кампании и находит аудиторию, которая с наибольшей вероятностью конвертируется для определенного типа рекламы.

Наш алгоритм был натренирован на оптимизацию трафика в соответствии с ключевыми показателями эффективности клиента, максимальное удержание пользователей и создание действий после установки. Рекламодателям необходимо использовать технологии, чтобы находить ценную информацию, прогнозировать результаты и максимизировать эффективность своих инвестиций, выбирая правильные каналы и бюджет.

Заключение

Важно базовое понимание машинного обучения. Это по двум причинам. Во-первых, ML действительно может улучшить нашу жизнь, найдя применение в нашей повседневной жизни. Наоборот, второй заключается в том, что цифровизация меняет все отрасли, поэтому обмен данными и их доставка стали высокоприоритетными.

Как мы объяснили, очень важно построить обученную модель. Чтобы гарантировать качественное обучение, вы должны предоставлять машинному обучению точные данные и в нужных количествах. То, как вы обучаете алгоритм и как он учится, зависит от того, насколько точно он вложен в построение вашего набора данных, ввод помеченных или неразмеченных данных и уделение пристального внимания тому, чтобы не снабжать алгоритм предвзятыми данными. Предвзятость данных приведет к ненадежным результатам, и если вы их используете, вы дадите неверный ответ на свою проблему. Предвзятые наборы данных могут поставить под угрозу бизнес-процессы и решения.

Последний фундаментальный шаг — это тот, который приводит к окончательным результатам процесса машинного обучения. Проверка и, более подробно, тестирование определят общую производительность модели, убедившись в том, что модель действительно может работать, когда вы используете ее для ответа на вопрос. реальная проблема.

Мы только что подготовили наиболее полное руководство по привлечению пользователей приложений в 2022 году. Скачай бесплатно!

Наша рассылка ✉️

Наш сайт 💻

Профиль Linkedin ✋🏽