Как определить возможности машинного обучения, даже если вы не специалист по данным

Эта статья впервые появилась в Harvard Business Review.

Искусственный интеллект больше не является нишевым подразделом информатики. Технологические гиганты используют ИИ в течение многих лет: алгоритмы машинного обучения используются в рекомендациях продуктов Amazon, Google Maps и контенте, который Facebook, Instagram и Twitter отображают в лентах социальных сетей. Но поговорка Уильяма Гибсона применима к внедрению искусственного интеллекта: будущее уже наступило, просто оно распределено неравномерно.

Средняя компания сталкивается с множеством проблем при запуске машинного обучения, в том числе с нехваткой специалистов по анализу данных. Но не менее важна нехватка руководителей и нетехнических сотрудников, способных определить возможности ИИ. И для выявления этих возможностей не требуется иметь докторскую степень по статистике или даже умение писать код. (Это, как спойлер, потребует короткого путешествия к алгебре в старших классах.)

Интуиция в отношении того, как работают алгоритмы машинного обучения - даже в самом общем смысле - становится важным бизнес-навыком. Ученые, занимающиеся машинным обучением, не могут работать в вакууме; заинтересованные стороны бизнеса должны помочь им определить проблемы, которые стоит решить, и назначить экспертов в предметной области, чтобы они отразили свои знания на этикетках для наборов данных, предоставили обратную связь по результатам и установили цели для алгоритмического успеха.

Как написал Эндрю Нг: Почти весь недавний прогресс ИИ - это один тип, в котором некоторые входные данные (A) используются для быстрого генерирования некоторого простого ответа (B).

Но как это работает? Вспомните математику старшей школы - обещаю, это будет кратко - когда вы впервые выучили уравнение прямой линии: y = mx + b. Подобные алгебраические уравнения представляют собой отношения между двумя переменными, x и y. В школьной алгебре вам скажут, что такое m и b, вам дадут входное значение для x, а затем попросят вставить их в уравнение для решения относительно y. В этом случае вы начинаете с уравнения, а затем вычисляете конкретные значения.

Обучение с учителем меняет этот процесс на противоположный, решая m и b, учитывая набор x и y. В контролируемом обучении вы начинаете с множества деталей - данных - и выводите общее уравнение. А обучающая часть означает, что вы можете обновлять уравнение по мере того, как вы видите больше x и y, изменяя наклон линии, чтобы лучше соответствовать данным. Уравнение почти никогда не идентифицирует взаимосвязь между каждым x и y со 100% точностью, но обобщение является мощным, потому что позже вы можете использовать его для алгебры новых данных. После того, как вы нашли наклон, который надежно фиксирует взаимосвязь между x и y, если вам дано новое значение x, вы можете сделать обоснованное предположение о соответствующем значении y.

Как вы понимаете, многие захватывающие задачи машинного обучения нельзя свести к простому уравнению вроде y = mx + b. Но по своей сути алгоритмы машинного обучения с учителем также решают сложные версии m на основе помеченных значений x и y, поэтому они могут предсказывать будущие y на основе будущих x. Если вы когда-либо проходили курс статистики или работали с прогнозной аналитикой, все это должно быть вам знакомо: это идея линейной регрессии, одной из простейших форм обучения с учителем.

Возвращаясь к формулировке Нг, контролируемое обучение требует, чтобы у вас были примеры как входных данных, так и ответов, как x, так и y. Если у вас есть и то, и другое, контролируемое обучение позволяет вам составить уравнение, которое аппроксимирует эти отношения, так что в будущем вы можете угадывать значения y для любого нового значения x.

Итак, вопрос о том, как определить возможности ИИ, начинается с вопроса: о каких результатах стоит догадываться? И есть ли у нас данные, необходимые для контролируемого обучения?

Например, предположим, что перед специалистом по обработке данных стоит задача спрогнозировать цены на недвижимость в районе. Проанализировав данные, она обнаружила, что цена на жилье (y) сильно коррелирует с размером дома (x). Таким образом, она использовала множество точек данных, содержащих как размер, так и цену домов, использовала статистику для оценки уклона (m), а затем использовала уравнение y = mx + b для прогнозирования цены для данного дома на основе его размера. Это линейная регрессия, и она остается невероятно мощной.

Организации используют аналогичные методы для прогнозирования будущих продаж продуктов, рисков инвестиционного портфеля или оттока клиентов. Опять же, статистика, лежащая в основе разных алгоритмов, различается по сложности. Некоторые методы позволяют получить простые точечные прогнозы (мы думаем, что y произойдет!), А другие - диапазон возможных прогнозов с соответствующими уровнями уверенности (вероятность y будет 70%, но если мы изменим одно предположение, наша уверенность упадет до 60%) .

Все это примеры задач прогнозирования, но контролируемое обучение также используется для классификации.

Задачи классификации объединяют данные в сегменты. Здесь специалист по анализу данных ищет в данных функции, которые являются надежными аналогами категорий, которые он хочет разделить: если данные имеют функцию x, они попадают в первую корзину; в противном случае он попадает во вторую корзину. Вы все еще можете думать об этом как об использовании x для предсказания y, но в этом случае y - это не число, а тип.

Организации используют алгоритмы классификации для фильтрации спама, диагностики отклонений от нормы на рентгеновских снимках, выявления соответствующих документов для судебного процесса, сортировки резюме о вакансиях или сегментации клиентов. Но классификация приобретает свою истинную силу, когда количество классов увеличивается. Классификация может быть расширена за пределы двоичных вариантов, таких как «Это спам или нет?» чтобы включить много разных ведер. Задачи восприятия, такие как обучение компьютера распознаванию объектов на изображениях, также являются задачами классификации, у них просто есть много выходных классов (например, названия различных видов животных), а не только Bucket 1 и Bucket 2. Это делает системы контролируемого обучения более умными. чем они есть, поскольку мы предполагаем, что их способность изучать концепции отражает нашу собственную. Фактически, они просто группируют данные в сегменты 1, 2, 3… n в соответствии с «m», полученным для функции.

Пока все это кажется довольно абстрактным. Как вы можете спустить его на Землю и научиться определять эти математические структуры в своей повседневной работе?

Есть несколько способов определить, дает ли задача хорошую возможность контролируемого обучения.

Сначала запишите, чем вы занимаетесь на работе. Разделите свою деятельность на: то, что вы делаете ежедневно или регулярно, и то, что вы делаете от случая к случаю; вещи, которые стали второй натурой, по сравнению с вещами, требующими терпеливого обдумывания или много размышлений; и вещи, которые являются частью процесса, по сравнению с тем, что вы делаете самостоятельно.

Для тех задач, которые вы выполняете регулярно, самостоятельно и которые кажутся автоматическими, определите, сколько других в вашей организации выполняют аналогичные задачи и сколько людей делали это исторически.

Изучите суть задачи. Включает ли он что-то предсказание или разбиение чего-либо на категории?

Спросите себя: если бы 10 коллег в вашей организации выполнили задачу, все ли они согласились бы с ответом? Если люди не могут согласиться с тем, что что-то правда или ложь, компьютеры не могут надежно преобразовать суждения в статистические модели.

Как долго люди в организации занимаются чем-то подобным этой задаче? Если прошло много времени, вела ли организация учет успешно выполненных задач? Если да, это можно использовать в качестве обучающего набора данных для вашего алгоритма контролируемого обучения. Если нет, вам может потребоваться начать сбор этих данных сегодня, а затем вы можете держать человека в курсе, чтобы обучать алгоритм с течением времени.

Затем сядьте с командой по анализу данных и расскажите им о задаче. Проведите их через свой мыслительный процесс и расскажите, на каких аспектах информации вы сосредотачиваетесь при выполнении своей задачи. Это поможет им определить, возможна ли автоматизация, и выявить те аспекты данных, которые будут наиболее предсказуемыми для желаемого результата.

Спросите себя: если бы это было автоматизировано, как это могло бы изменить продукты, которые мы предлагаем нашим клиентам? Спросите, что самое худшее, что могло бы случиться с бизнесом, если бы это было автоматизировано? И, наконец, спросите, что самое худшее, что может случиться с бизнесом, если алгоритм выдаст неправильный ответ или ответ с точностью 65% или 70%? Какой порог точности требуется бизнесу, чтобы автоматизировать эту задачу?

Успешное обучение с учителем влечет за собой изменение взглядов на то, как выполняется работа. Это влечет за собой использование прошлой работы - всего этого человеческого суждения и знаний в предметной области - для создания алгоритма, который применяет эти знания к будущей работе. При правильном использовании это делает сотрудников более продуктивными и создает новую ценность. Но он начинается с выявления проблем, которые стоит решить, и обдумывания их с точки зрения входов и выходов, х и у.

Кэтрин Хьюм - вице-президент по продуктам и стратегии Integrate.ai

Как определить возможности машинного обучения, даже если вы не специалист по данным

Вопросы по теме