В последние годы мы видели, как область изучения искусственного интеллекта появилась в нескольких новостных программах на телевидении, радио и в Интернете. Такие слова, как «большие данные», «наука о данных», «машинное обучение» и «глубокое обучение», быстро входят в словарный запас делового мира.

Принимая во внимание, что многие компании хотели бы применять эти технологии в своем бизнесе, я выбрал 3 совета для менеджеров и руководителей, которые начинают применять машинное обучение в своих компаниях и повышают свои шансы на успех.

Совет 1. Отличайте ложные ожидания от реальности.

Некоторые люди настаивают на том, что решения машинного обучения подобны серебряной пуле: у вас есть данные, а техническому персоналу просто нужно получить их в свои руки, и волшебным образом компания быстро получит, например, точные ответы о новых продуктах, понимание поведение клиентов и различные бизнес-решения автоматически, благодаря какому-то чудодейственному алгоритму (набору инструкций).

Другие люди, рекламируют какой-то продукт или услугу, которая некоторое время была на рынке, но была переименована в решение, которое теперь имеет Искусственный Интеллект, потому что из-за высокого спроса на тему и отсутствия более точной информации это делает со старыми продуктами, чтобы продавать больше, просто под новой этикеткой. Например, программное обеспечение, которое внутренне достигло некоторого результата для вычисления некоторых средних арифметических значений, но теперь использует линейную регрессию.

Правда в том, что для успешного применения машинного обучения необходимо не только обладать техническими знаниями о том, как извлекать полезные шаблоны из данных, но, главным образом, как сформулировать хорошую бизнес-задачу, которую необходимо решить, в дополнение к созданию культуры в компании. поддержания полного цикла работы с данными, начиная от правильного выбора и сбора и заканчивая доступностью результатов с упором на реальную ценность для стратегии компании, измеряемую, как правило, удовлетворенностью ее менеджеров и клиентов.

Для этого обычно необходимы 3 критических знания:

  1. Глубоко понимать бизнес-модель компании и продукты/услуги;
  2. методы анализа данных и алгоритмы распознавания образов;
  3. Знание информационных технологий.

Учтите, что эти пункты сложно найти в одном человеке, так как это разные роли, требующие культуры командной работы. Нет большого смысла в том, чтобы иметь на рынке лучшего специалиста по обработке и анализу данных, если нет сильной синергии компании, чтобы объединить бизнес-менеджеров с ученым, а также предоставить минимум технической ИТ-инфраструктуры, чтобы сделать проект осуществимым, в дополнение к склонность к риску.

Совет 2: мусор на входе, мусор на выходе!

Качество решения для машинного обучения напрямую связано с качеством данных. Поскольку результаты основаны на предполагаемом изучении их, это может произойти только тогда, когда решение (модель, алгоритм…) способно достоверно обобщить реальность бизнеса. Самая захватывающая часть работы с машинным обучением — это, без сомнения, часть создания моделей, выполнения алгоритмов и демонстрации результатов, но все зависит от качества и актуальности данных, которые послужили входными данными для этих задач. То есть сделать хорошую работу базы.

Фактически, большая часть времени в проекте машинного обучения тратится на организацию, преобразование и очистку данных. Некоторые предметы, о которых нужно позаботиться:

  1. Действительно ли данные имеют отношение к решению проблемы компании? Например, данные о доходах в решении по рекомендации товаров;
  2. Откуда и как будут поступать данные? Есть ли гарантия доступности и обновления по мере необходимости? Пример: данные в режиме реального времени, ежедневно, еженедельно, ежемесячно, извлекаемые автоматически или извлекаемые вручную;
  3. Содержат ли данные много пустых или нулевых полей? Применить среднее/медиану/моду значений или удалить записи с отсутствующими данными?
  4. Надежны ли введенные значения? Пример: в точках продаж поля идентификатора клиента в основном представляют собой стандартный номер, например 0000001.
  5. Имеются ли данные в требуемом для решения формате и актуальны ли они? Пример: у нас есть возраст человека, но он относится ко времени, когда он зарегистрировался в магазине.

Неважно, структурированы ли данные, как электронные таблицы Excel или таблицы базы данных, или неструктурированы, как изображения, видео и аудио; или получены ли они автоматически, из Интернета или извлечены вручную. Важно то, что они имеют отношение к решению бизнес-задачи (общему увеличению выручки или сокращению расходов) и чтобы они были чистыми и трансформировались оптимальным для задачи способом, потому что если мусор приходит, то мусор обязательно выходит, также. Рециркуляции нет.

Совет 3. Научитесь справляться с неопределенностями в проектах такого типа

Когда мы работаем с проектами по разработке программного обеспечения, мы привыкли к некой реальности. В большинстве случаев есть особенности в виде требований, которые необходимо разработать, четко определенного графика, стоимости и объема. В случае возникновения проблем корректировки, такие как увеличение штата, увеличение бюджета, покупка лучших ресурсов, сверхурочная работа и определение приоритетов, могут эффективно решить проблему.

В случае с проектами машинного обучения могут быть очень неприятные сюрпризы, учитывая, что способ их осмысления и управления немного отличается от обычного. Одним из этих отличий является способ борьбы с неопределенностью проекта. При запуске проекта машинного обучения невозможно обещать идеально точный результат, как мы обычно делаем в проектах по разработке программного обеспечения.

Представьте себе проект по распознаванию диких животных по изображениям, снятым с фермы. Когда животное приближается к камере, создается фотография, и программное обеспечение машинного обучения классифицирует животное, например, как курицу, крупный рогатый скот или волка. В зависимости от типа животного, обнаруженного программой, должны быть предприняты различные действия, например, подсчет цыплят или подача сигнала тревоги при обнаружении волка. Первоначальный вопрос может звучать так: каков процент правильности классификации животных?

Будет ли это 40%, 75% или 90%? Сколько изображений необходимо, чтобы иметь хорошую точность? Сто? Пятьсот? Тысяча? Десять тысяч? По двести каждого животного? Когда появляются новые виды животных, как их включить? Как это включение повлияет на новые результаты? Будет ли много животных идентифицировано неправильно? Каковы последствия неправильного обнаружения волка?

Прежде чем начать проект машинного обучения, мы всегда должны четко определять показатели успеха, такие как достижение точности 80% и допустимость ошибки только 10% или что-то в этом роде. Однако нельзя с уверенностью сказать, что будет достигнут определенный уровень успеха. Только мы можем на опыте оценить результаты. А в некоторых случаях, если техническая команда не имеет опыта и не разъясняет риски, в зависимости от результатов, у руководителей проектов и спонсоров может возникнуть разочарование. В инновациях риск и неопределенность являются факторами, определяющими этот тип проекта.

Нет рисков? Никаких инноваций! В противном случае это не инновация, а просто выполнение рутины. Хорошая новость заключается в том, что если проект машинного обучения не достигает ожидаемого уровня точности, существует несколько методов оптимизации результатов: как изменить алгоритмы, корректировки параметров и гиперпараметров, попытаться уменьшить систематическую ошибку и дисперсию. Поэтому всегда важно иметь опытных профессионалов или начинать с простых проектов и со временем приобретать ноу-хау.

Но иногда единственное действительно эффективное решение — иметь гораздо больший объем данных, чем мы планировали до сих пор. Поэтому важно научиться справляться с неопределенностями планирования этого проекта и открыто сообщать о них всем заинтересованным сторонам. Или мы рискуем услышать примерно такой диалог: — в чем проблема не получить нужной точности? Нам нужно ее решить! Вы можете купить еще около 5 серверов, которые оплатит компания! Или еще хуже: это произошло потому, что мы не купили услуги когнитивных вычислений Deep Learning «Ultra Power Mega Enhanced» у известной компании XYZ Corporation.