С автоматизацией в машинном обучении открывается поле, и можно спросить, нужны ли нам навыки статистики в будущем.

Мир автоматизированного машинного обучения

Сегодня, если вы хотите стать специалистом по данным, существует бесчисленное множество курсов, обещающих быстрый вход в область данных. Конечно, никто не верит, что за несколько недель можно изучить все тонкости сложной области, требующей серьезных навыков в математике / статистике, разработке программного обеспечения и мягких навыков в разработке НИОКР. Тем не менее, из-за автоматизации кажется разумным обучать технических специалистов по машинному обучению: людей, знающих инструменты и API, которые раскрывают всю мощь аналитики данных.

из-за автоматизации кажется разумным обучать специалистов по машинному обучению

На самом деле я тоже стараюсь использовать такие инструменты как можно чаще. Причина в том, что реализация любого из этих методов самостоятельно обычно бессмысленна и подвержена ошибкам.

Реальность автоматизации науки о данных

Тем не менее, я по-прежнему вижу недостаток знаний в статистике как красный знак для кандидата на собеседовании. Хотя инструменты делают большую часть тяжелой работы, нам все равно нужен наш опыт, чтобы избежать типичных ошибок при анализе и моделировании.

Допустим, ваша задача - решить, насколько хорошо рынок усвоил ваш продукт. У вас есть несколько показателей, показывающих прокси из маркетинговой кампании, процесса продаж и удержания / оттока. Распространенная ошибка - отправиться в рыбалку, чтобы найти результаты, подтверждающие ваши предубеждения. И да, во многих инструментах есть встроенные исправления для этого, но, если вы не проверите все гипотезы сразу, система не сможет определить, нужна ли вам эта поправка. Другая ошибка, связанная с этим, - это выбор вишни: когда вы выбираете образцы, которые подтверждают вашу гипотезу. Возможно, это даже опаснее. Допустим, вы приносите его эксперту для консультации по вашим результатам. Если эксперт еще не знаком с вашими данными, обсуждение уже является предвзятым и потенциально бесполезным.

Отсутствие статистических знаний опасно и на более поздних этапах конвейера машинного обучения. Хотя подобрать модель машинного обучения так же просто, как вызвать функцию fit, выбор правильной модели для работы требует понимания того, как разные модели моделируют данные. Я часто вижу людей, использующих практическое правило «XGBoost для структурированных нейронных сетей для неструктурированных данных». Хотя это полезная эвристика, это далеко не полное решение. XGBoost - это круто, я использую его довольно часто, но уделяя особое внимание домену, который собираюсь развернуть. Первое, о чем мы должны подумать, - были ли данные обучения и тестирования достаточно информативными для потенциальных результатов в будущем. Мы должны помнить, как работают древовидные алгоритмы, и, следовательно, почему они неэффективны при решении задач экстраполяции. На более общем уровне это случай недостаточного соответствия: наша модель не смогла уловить дисперсию будущих событий. В то время как обнаружить переобучение обычно несложно, недостаток - это дьявол, скрывающийся в деталях. Проблема недостаточного соответствия становится еще более серьезной, когда мы имеем дело с неструктурированными данными. В особенности потому, что недостаточную подгонку нельзя решить напрямую, построив более глубокую сеть с большим количеством нейронов.

В то время как обнаружить переобучение обычно несложно, недостаток - это дьявол, скрывающийся в деталях.

Обычный подход заключается в проверке различных гипотез на результирующей модели, что часто требует понимания статистических деталей данных, таких как их распределение или ожидаемая дисперсия выходных данных, вызванная небольшими различиями во входных данных (т. Е. Шумом).

Обязательные навыки будущих специалистов по данным

Я твердо верю, что в ближайшем будущем инструменты для автоматизации науки о данных станут еще более мощными. Это то, что нужно всему полю. Отсутствие инструментов и автоматизации означает, что сегодня компаниям приходится платить огромную цену за каждую информацию. Я не говорю здесь о Deepmind, а, например, о региональном интернет-магазине по продаже вина. Нам нужно снизить стоимость науки о данных, чтобы каждый мог пользоваться ее преимуществами. В этих случаях я ясно вижу место специалистов по машинному обучению. Для этого часто бывает достаточно выучить формулу линейной регрессии, не понимая лежащих в ее основе предположений.

Я с удовольствием читаю в еженедельных дайджестах, как ИИ теперь решает ранее невозможные задачи с точностью 99%. Здорово жить в эпоху, когда можно почувствовать прогресс науки. С другой стороны, 99% процентов не всегда достаточно. Кто из 1% скажет, что модель неправильная? Во многих приложениях человек просто не может дважды проверять каждое решение, которое принимает ИИ, из-за скорости / стоимости / масштабируемости. Следовательно, при построении этих моделей у нас должны быть люди с критическими знаниями. Это критическое знание требуется в любое время, когда модель, которую мы собираемся использовать, оказывает серьезное и прямое влияние на жизнь людей, а также в исследованиях и разработках, где мы, возможно, просто еще не знаем точно влияние новых продуктов.

99% процентов не всегда достаточно. Кто из 1% скажет, что модель неправильная?



Получите доступ к экспертному обзору - Подпишитесь на DDI Intel