Два правила, которым следует руководствоваться при рассмотрении вопроса об использовании машинного обучения.

Машинное обучение. Да, это модное слово, которое все любят бросать. Это ярко, это «сексуально», это по-прежнему ново и захватывающе. Каждая компания думает, что это панацея, которая решит все их проблемы и предскажет будущее, решив все их проблемы навсегда. Так почему бы вам не использовать его? Это обетованная земля науки о данных, верно? Это все, о чем вы мечтали, когда стремились стать Data Scientist, не так ли? Что ж, есть очень веская причина, по которой вам не следует использовать машинное обучение, и как Data Scientist вы должны различать, когда его использовать, а когда не использовать.

Правило №1

Этика

Есть причина, по которой первое правило состоит только из одного слова. Этика. Я скажу вам, почему. Одной из причин, по которой я решил заняться наукой о данных, помимо моей страсти, любви и склонности к данным и аналитическому мышлению, была идея о том, что наука о данных способна изменить мир. Если учесть, что специалисты по обработке и анализу данных и другие исследователи в буквальном смысле могут изменить мир, извлекая знания из данных, а затем передавая эти знания людям для стимулирования социальных и экономических изменений, это вдохновляет. Я хочу помогать людям. Это важная причина, по которой я решил окунуться в сферу науки о данных и заняться ею как карьерой и академическим занятием. Чтобы процитировать мантру из моей alma mater,

Информация меняет все.

Учитывая, что наука о данных и информация, передаваемая с помощью ее методов обнаружения, способны изменить мир, этика всегда должна быть на первом месте. Это особенно верно при рассмотрении вопроса о том, следует ли использовать машинное обучение. Вот почему.

Информация предвзята. Информация собирается из данных, данные собираются от людей, люди предвзяты, поэтому данные предвзяты, и информация, извлеченная из них, предвзята. Это истина простая и ясная. Если вы мне не верите, посмотрите не дальше наших друзей Джой Буоламвини в Закодированном уклоне или Кэти О’Нил, автора Оружия математического разрушения (не партнерские ссылки).

Простой вопрос, который следует задавать себе на каждом этапе проекта: на кого это может повлиять и как? Если не знаешь, узнай. Если есть потенциальные негативные последствия, пересмотрите свой подход. Тема этики в области науки о данных — это отдельная тема, поэтому я не буду здесь подробно останавливаться, но было бы упущением, если бы она не была указана в качестве причины не использовать машинное обучение. Это большое. Возможно, самый большой «один».

Правило №2

Если вы можете определить правила словами, не используйте машинное обучение.

Существует множество ситуаций, когда вы можетеиспользовать машинное обучение для решения проблемы, ноэкономическое обоснование проблемы имеет набор правил, которые вы хорошо понимаете. Я бы сказал, что это случаи, когда машинное обучение не подходит для решения поставленной задачи. В таких ситуациях почти всегда лучше найти способ преобразовать правила в код и автоматизировать процесс. Так вы почти всегда получите лучший результат.

Пример. Представьте, что вы работаете над проектом для бизнес-группы, которой необходимо определить заказы на работу, в которых была обнаружена проблема с оборудованием, на основе заметок, оставленных выездными техниками. В настоящее время работа по выявлению проблем выполняется путем ручного чтения примечаний к заказам, и бизнес-группа выиграет от решения, которое делает процесс автоматическим, сокращая ручную работу. Звучит как классическая проблема бинарной классификации с НЛП, верно? Ну да, может быть. Однако что, если в результате обнаружения данных и ознакомления с бизнес-процессом вы поняли, что существуют жесткие и быстрые правила идентификации заказов, когда технический специалист либо нашел проблему, либо не нашел проблему? Может быть, есть общепринятое правило, которому все техники следуют, когда пишут заметки каждый раз, когда завершают сервисный вызов. Скорее всего, вы добьетесь большей точности, просто проанализировав эту информацию из комментариев к заказу, оставленных техническим специалистом, чем полагаясь на модель. Хорошая модель можетобеспечить точность 95 % в такой бинарной классификации. Если вы знаете бизнес-правила, вы, вероятно, приблизитесь к 100% точности, просто закодировав их.

Еще лучшее возможное решение: что, если бы существовали правила проверки данных, заставляющие технических специалистов определять, была ли проблема с оборудованием или нет в заказе, скажем, с помощью переключателя на их портативном полевом устройстве. Заставляя техника нажимать переключатель, определяющий наличие проблемы, означает, что информация никогда не будет недоступна, и она будет неточной только в том случае, если техник по ошибке нажмет не ту опцию. Очевидно, что обновление ПО для полевых устройств целесообразно не во всех сценариях, но суть остается неизменной. Если существуют правила проверки данных, которые можно применить для решения вашей проблемы, попробуйте сначала их. Если вы не можетесоздать правила проверки данных, но можете сформулировать бизнес-правила простым языком, определите правила для определения проблемы в коде и автоматизируйте обнаружение проблем. . Проще говоря, если вы можете определить правила, не используйте машинное обучение.

Заключение

Существует множество случаев использования, когда машинное обучение и ИИ являются правильным выбором для решения проблемы. Тем не менее, я думаю, что существует тенденция тяготеть к этим подходам, даже если они не являются лучшим решением проблемы. Я получил это откровение на днях, когда поставил задачу на работе, которую можно было бы решить с помощью машинного обучения, но после того, как я приложил немного усилий, чтобы понять данные и бизнес-правила, четким и очевидным выбором было просто запрограммировать правила. что привело к гораздо более высокому результату. А вы? Был ли у вас такой случай, когда ожидалось, что вы примените волшебство машинного обучения для решения проблемы, но получили лучшие результаты при более традиционном подходе? Дай мне знать в комментариях. Я хотел бы услышать ваш опыт.

Как всегда, спасибо за чтение. Ваше здоровье!

P.S. Для тех, кто против

Есть люди, которые, вероятно, прочитают эту статью и подумают: «вам не следует никогдаиспользовать машинное обучение, потому что ему нельзя доверять». Это может быть ответом на искусственный интеллект и беспилотные автомобили или что-то еще, о чем вы только можете подумать. Им я говорю: во многих случаях машинное обучение и ИИ превосходят людей. На самом деле их много, поэтому я разместил несколько справочных статей ниже для дальнейшего изучения.