Реальные уроки машинного обучения от GAFA, ведущих стартапов и исследователей

По мере того, как машинное обучение становится все более популярным, становится все яснее, насколько обширна эта тема, что она касается людей самых разных профессий и что к ней можно подходить с самых разных сторон. Терминология рабочих мест, связанных с машинным обучением, в отрасли вышла за рамки «специалистов по данным», теперь в нее входят «инженеры машинного обучения» и «менеджеры машинного обучения», и, вероятно, она будет развиваться и дальше. Мне нравится метафора автомобиля, где есть механики, которые работают над двигателем, некоторые парни, которым нравится сводить концы с концами, и все остальные, кто «просто» водит машины - от обычного человека до пилотов Формулы 1.

Большинство проблем, обсуждаемых на ведущих конференциях по машинному обучению, были алгоритмическими и модельными, где вы должны были искать способы получить наиболее точные прогнозы на заданном наборе данных. Но теперь мы видим более широкий спектр тем, с семинарами ICML и NIPS, на которых представлены презентации приложений машинного обучения, основанные на реальных условиях, таких как Системы машинного обучения, Надежное машинное обучение в дикой природе и «ML & The Закон".

(IC) ML, Закон и Европа 🇪🇺

Журнал Entrepreneur недавно опубликовал статью Rand Hindi о влиянии Общего регламента ЕС по защите данных (GDPR) на использование машинного обучения: Будет ли искусственный интеллект незаконным в Европе в следующем году? ».

GDPR вступит в силу в мае 2018 года и включает в себя принципы, которые, по всей видимости, определяют определенные области исследований машинного обучения. Одно из них - право на объяснение для эффективных решений, принимаемых на уровне отдельного человека и основанных на использовании личных данных (см. Мою статью о ОД и Закон). Многие сразу же исключают глубинные нейронные сети в этом контексте, но есть последнее программное обеспечение, которое делает модели черного ящика более прозрачными, такие как LIME и Influence, что следует из Лучшей статьи на ICML 2017 (Понимание черного -box Прогнозы с помощью функций влияния »).

Еще один принцип GDPR - это право на забвение, которое является фундаментальным правом в Европе. Это мотивирует алгоритмы, которые могут легко удалить одну точку обучающих данных и обновить ее без повторного обучения по всему набору данных. Это называется машинным отучением, и новый подход был предложен в « На пути к тому, чтобы заставить системы забыть с машинным отучением . Эта идея также считается довольно важной за пределами Европы, поскольку Национальный научный фонд США выделил грант в размере 1,2 миллиона долларов на продолжение исследований по этой теме до 2020 года.

Наконец, все компании, которые хотят вести бизнес в Европе и собирать данные пользователей, теперь должны будут запрашивать у пользователей согласие простыми словами, а не закрываться в юридических условиях. Хинди указывает, что это, вероятно, будет трудноразрешимой проблемой для голосовых помощников, таких как Amazon Echo или Google Home, и приводит пример организации званого обеда с большим количеством гостей ... Если только данные не покидают устройство и машинное обучение не выполняется на -устройство. Это подход, принятый Apple, наряду с использованием методов дифференциальной конфиденциальности (см. « Дифференциальная конфиденциальность Apple касается сбора ваших данных, но не ваших данных »). Существует также их Core ML framework, который позволяет разработчикам интегрировать обученные модели в свои приложения и использовать их на устройстве, но учтите, что здесь нет обучения - просто оценка / построение прогнозов на основе моделей.

Программная инженерия + автоматизация и машинное обучение 🎛

Интересно наблюдать, как разрабатываются новая методология и программное обеспечение для проверки и понимания того, как работают модели черного ящика, в то время как методы автоматического моделирования разрабатываются и упрощаются для использования на практике - например, см. Auto-sklearn , который действует как замена для средства оценки scikit-learn, которое автоматически выполняет выбор алгоритма и настройку гиперпараметров. Теперь вы можете разрабатывать точные модели одним щелчком мыши / одной строкой кода, а затем проверять их (помимо обычных совокупных показателей производительности перед развертыванием), чтобы решить, следует ли им доверять, и убедиться, что они будут надежными при развертывании в реальном времени. Мир!

Идея автоматизации машинного обучения не просто экспериментальная, и такие компании, как Facebook, Airbnb и Salesforce, использовали автоматизацию в производстве (см. Эйнштейн в Salesforce сочетает автоматизированный ИИ с бизнес-моделями данных, Автоматизированное машинное обучение - A Сдвиг парадигмы, который увеличивает производительность специалистов по данным @ Airbnb и Представляем FBLearner Flow: основу ИИ Facebook ). По мере того, как моделирование становится автоматизированным, становится также ясно, что автоматизация машинного обучения включает в себя нечто большее, чем компонент моделирования ... Вы хотите максимально автоматизировать весь рабочий процесс, который идет от сбора и подготовки данных до данных, готовых к машинному обучению, до развертывания моделей и прогнозов. в масштабе! Это особенно полезно при рассмотрении вашей системы машинного обучения в среднесрочной перспективе, когда вы захотите легко обновлять ее по мере появления новых данных.

Системы машинного обучения - это программное обеспечение, поэтому вы определенно захотите провести обширные тесты, прежде чем развертывать их в производственной среде. Вероятно, Google была первой компанией, опубликовавшей надлежащую структуру для тестирования использования машинного обучения в производственной системе: Каков ваш результат теста машинного обучения? Рубрика для производственных систем машинного обучения » (мастерская ML в дикой природе, NIPS 2016). Это одна из новых тем на пересечении программной инженерии и машинного обучения. В статье Машинное обучение: новая парадигма построения систем машинного обучения исследователи Microsoft проводят различие между машинным обучением и машинным обучением, новой дисциплиной, которая расширяет принципы SE на область прогнозирования. модели и направлен на то, чтобы позволить большему количеству людей создавать системы машинного обучения:

В то время как машинное обучение фокусируется на создании новых алгоритмов и повышении точности «учащихся» (алгоритмы машинного обучения), дисциплина машинного обучения фокусируется на эффективности «учителей» для учащихся. Метрики машинного обучения измеряют производительность относительно человеческих затрат, таких как производительность, интерпретируемость, надежность и масштабирование в зависимости от сложности проблемы или количества участников.

Какую выгоду от всего этого может получить ваша собственная компания? 💡

Microsoft, Google и Amazon проводят исследования в области машинного обучения и в то же время предоставляют продукты машинного обучения в своих общедоступных облаках, которые направлены на повышение нашей продуктивности. Кто-то может спросить, сколько новых исследований заканчивается их продуктами машинного обучения и становится легко доступным для вас и меня, или насколько они используют свои собственные продукты внутри компании. Ответ кажется либо не так уж много, либо неясно - за исключением, возможно, Amazon, которая утверждает, что использует ту же технологию искусственного интеллекта, которую коммерциализирует в AWS, для своих собственных внутренних приложений и сервисов (см. « Предлагаем всем разработчикам мощный ИИ »).

Есть несколько очень интересных стартапов машинного обучения, которые конкурируют с этими технологическими гигантами и во многом отличаются друг от друга. Например, DataRobot, BigML и Dataiku делают машинное обучение более доступным за счет использования библиотек с открытым исходным кодом и / или предоставления функций более высокого уровня, добавления автоматизации и уникальных визуализаций; они также позволяют вам устанавливать свои продукты в вашей собственной инфраструктуре (чего нельзя сказать о продуктах Google, Amazon и Microsoft). Seldon Deploy реализует уникальные функции, такие как контрольные журналы прогнозирования и моделирования, объяснения с помощью LIME и эксперименты с живыми моделями с многорукими бандитами. Snips предоставляет голосового помощника на устройстве, который вы можете добавить к своему продукту (или, например, к Raspberry Pi), где все машинное обучение происходит на устройстве (это похоже на то, что делает Apple, но отличается от голоса конкурентов. технология-помощник от Google и Amazon, где данные отправляются в их облака).

Включение машинного обучения во все ваши технологии и бизнес 📲

Машинное обучение является обязательным условием успеха многих компаний, и платформы машинного обучения необходимы для реализации его полного потенциала, поскольку они облегчают инженерам и специалистам по обработке данных разработку и развертывание решений в производственной среде.

Если ваша компания хочет создать собственную платформу машинного обучения, готовую к работе, PAPI опубликовали несколько статей в Proceedings of Machine Learning Research, в которых рассказывается об уроках, извлеченных командами Microsoft Azure ML (Анатомия службы машинного обучения), Upwork (Развертывание прогнозных моделей с высокой пропускной способностью с помощью структуры субъектов), а в последнее время - Uber (Масштабирование машинного обучения как услуги), которые являются отличной отправной точкой. Если вы нашли FBLearner Flow от Facebook интересным, вы обязательно захотите ознакомиться с техническими подробностями о платформе машинного обучения Uber, которая управляет всем рабочим процессом обучения и обслуживания (чего нельзя сказать о первом случае).

После того, как эта платформа будет создана и готова, ее широкое использование в крупных организациях - в каждом приложении или процессе - может оставаться полон технических, продуктовых или организационных проблем. Adobe недавно прошла путь внедрения интеллектуальных функций во все свои продукты (облачные, настольные, мобильные) для фотографов, дизайнеров, арт-директоров, маркетологов, контент-менеджеров и писателей. Они поделятся извлеченными уроками в предстоящей презентации на PAPI '17 Ввод P в A (P) I: Почему API-интерфейсы являются ключом к масштабированию AI ».

В этом году также будут представлены приглашенные доклады Д. Скалли из Google («ML, технический долг и вы»), Седрика Аршамбо (главный научный сотрудник Amazon AI), а также множество интересных выступлений, которые станут темой моего следующего поста. .

А пока вы можете выиграть бесплатный пропуск на PAPI '17 (или бесплатный доступ к презентациям после конференции), поставив лайк этому сообщению и оставив комментарий (подойдет +1)!

Реальные уроки машинного обучения от GAFA, ведущих стартапов и исследователей

(IC) ML, Закон и Европа 🇪🇺

Программная инженерия + автоматизация и машинное обучение 🎛

Какую выгоду от всего этого может получить ваша собственная компания? 💡

Включение машинного обучения во все ваши технологии и бизнес 📲

Вопросы по теме