Панель @ World Summit AI: Тони Джебара, директор по машинному обучению в Netflix; Илья Кирнос, технический директор SignalFire; Трент МакКонаги, технический директор Ocean Protocol; Майк Райнер, венчурный партнер OpenOcean

Основные моменты видео:

5 основных извлеченных уроков

  1. Подготовьте процесс сбора данных до фактического сбора данных. Что вы можете сделать, если у вас мало данных? Загрузите свои данные. Нарисуйте образцы вашего размещения, чтобы построить модель, и повторяйте этот процесс снова и снова. Сделайте это пять раз, а затем, используя это, сделайте прогнозы по всем пяти моделям. Здесь можно получить не только прогнозы, но и неопределенность. Как только у вас есть неопределенности, становится действительно важно сообщить о них пользователю. Трент из Ocean Protocol понял, что вы даже можете совместно разрабатывать UX и алгоритм одновременно. Какое ключевое звено между UX и алгоритмом? Доверительные интервалы. На самом деле, лучшая часть состоит в том, что действительно хороший UX может преодолеть недостатки алгоритма или даже данных - и наоборот.
  2. Разберитесь в предвзятости в ваших данных и что-нибудь с этим сделайте (устраните предвзятость в ваших данных). Новости: данные не соответствуют действительности. Вы можете получить любые данные, которые захотите, но в конечном итоге они будут отражать предубеждения общества. Данные также будут отражать предвзятость инструментов и оборудования, используемых для сбора данных в первую очередь, то есть, если вы собираете данные на iPhone, они не обязательно будут обобщены на данные версии пользовательского интерфейса MacBook Air. Мы должны помнить, что цель сбора данных состоит в первую очередь в том, чтобы найти закономерности, чтобы модель машинного обучения могла генерировать определенные действия и получать от них полезные бизнес-результаты. Проблема, однако, в том, что чаще всего можно обнаружить в данных бездействующие корреляции. Итак, да, вы можете сказать, что у вас есть отличный набор данных и вы построили отличную модель (с исключительной точностью прогнозирования). Но до тех пор, пока вы не проведете A / B-тестирование этих данных, трудно по-настоящему оценить, какое влияние эти данные оказывают. Если вы не примените какой-либо тип рандомизации, в данных, скорее всего, останутся ошибки.
  3. Самые сложные модели иногда могут быть самыми хрупкими. Люди часто стремятся иметь самые сложные модели. Самые сложные из них также обычно содержат наибольшее количество строк кода и часто могут быть относительно более «глючными» с модулями конвейера, которые также могут давать сбой. Выбирайте простую модель, которая поддерживает ключевые принципы более сложной модели глубокой нейронной сети, но гораздо более линейна и не требует такого большого количества данных. Всегда приятно иметь модель (или даже несколько моделей) с меньшими размерами в качестве запасного плана!
  4. Будьте защищенными данными. Подход, основанный на учебниках, к данным, и в частности к обучению на основе данных, не так последовательнен, как вы думаете. Тони подчеркивает важность введения в данные упражнений типа «обезьяна хаоса» и выяснения того, как в результате изменятся алгоритмы. Например, что произойдет, если весь набор данных Netflix из Азиатско-Тихоокеанского региона будет уничтожен? Как отреагирует алгоритм? Постарайтесь сделать данные более надежными, но всегда обрабатывайте значения, также принимая во внимание неопределенности!
  5. Знайте разницу между предсказуемостью (корреляцией) и причинно-следственной связью! Глубокое обучение - это прекрасно, равно как и методы машинного обучения… отлично подходят для прогнозирования! Однако они, как правило, узнают разницу между одним полем и другим, но не обязательно изучают причинно-следственные связи между разными полями. Реальность такова, что мы, как люди, намного больше, чем машины прогнозирования (или машины корреляции). Нас интересует и должна интересовать причинность. В результате всегда важно помнить, что может произойти, если вы обнаружите (просто) хорошие корреляции.

Мое любимое высказывание в панельной дискуссии:

Майк Райнер: "Какое для вас качество данных, Трент?"

Трент МакКонаги: «Все в формате PDF! Вы можете предположить, что во входящих данных есть полосы ошибок. И вы можете распространить это на всю модель, статистически используя метод Монте-Карло ».

История выступающих

Модератор:

Майк Райнер, соучредитель City AI и венчурный партнер Open Ocean. Майк инвестирует в инновационные стартапы из Европы и за ее пределами, в нескольких областях и отраслях, включая искусственный интеллект (который ему особенно нравится).

Эксперты:

Доктор Тони Джебара - профессор Колумбийского университета и директор по машинному обучению в Netflix. Неотъемлемая часть успешного внедрения машинного обучения в компании, Тони возглавляет команду, которая помогает Netflix ежегодно экономить миллиард долларов.

Илья Кирнос - партнер-основатель и технический директор SignalFire. До того, как стать соучредителем SignalFire, Илья работал инженером-программистом в Google (2004–2012). За время работы в Google Илья занимал несколько руководящих технических должностей. Он был техническим руководителем отдела рекламы в Gmail и отвечал за прогнозирование покупательских намерений и монетизацию Gmail. Илья также был техническим руководителем отдела эффективности и масштабируемости AdWords, где он контролировал скорость отклика и время безотказной работы интерфейса AdWords.

Трент МакКонаги - основатель и технический директор Ocean Protocol, децентрализованного субстрата для данных и сервисов искусственного интеллекта. Он разработан, чтобы стимулировать распространение общих данных вместе со многими рынками данных, сделать проверенные и защищающие конфиденциальность вычисления более доступными и предоставить источник данных для обучения, построения моделей и прогнозирования. Это, в свою очередь, может стимулировать автономное вождение, медицинские исследования и многое другое. Долгосрочная цель Трента - помочь человечеству сыграть свою роль во все более автономном мире.

Комментируйте, делитесь и обязательно подписывайтесь на нас в DataSeries, чтобы быть в курсе последних новостей нашей сети! Вы можете найти полнометражное видео ниже. Однозначно стоит посмотреть!