5 выводов данных из Netflix, SignalFire и Ocean Protocol

Панель @ World Summit AI: Тони Джебара, директор по машинному обучению в Netflix; Илья Кирнос, технический директор SignalFire; Трент МакКонаги, технический директор Ocean Protocol; Майк Райнер, венчурный партнер OpenOcean

Основные моменты видео:

5 основных извлеченных уроков

Подготовьте процесс сбора данных до фактического сбора данных. Что вы можете сделать, если у вас мало данных? Загрузите свои данные. Нарисуйте образцы вашего размещения, чтобы построить модель, и повторяйте этот процесс снова и снова. Сделайте это пять раз, а затем, используя это, сделайте прогнозы по всем пяти моделям. Здесь можно получить не только прогнозы, но и неопределенность. Как только у вас есть неопределенности, становится действительно важно сообщить о них пользователю. Трент из Ocean Protocol понял, что вы даже можете совместно разрабатывать UX и алгоритм одновременно. Какое ключевое звено между UX и алгоритмом? Доверительные интервалы. На самом деле, лучшая часть состоит в том, что действительно хороший UX может преодолеть недостатки алгоритма или даже данных - и наоборот.
Разберитесь в предвзятости в ваших данных и что-нибудь с этим сделайте (устраните предвзятость в ваших данных). Новости: данные не соответствуют действительности. Вы можете получить любые данные, которые захотите, но в конечном итоге они будут отражать предубеждения общества. Данные также будут отражать предвзятость инструментов и оборудования, используемых для сбора данных в первую очередь, то есть, если вы собираете данные на iPhone, они не обязательно будут обобщены на данные версии пользовательского интерфейса MacBook Air. Мы должны помнить, что цель сбора данных состоит в первую очередь в том, чтобы найти закономерности, чтобы модель машинного обучения могла генерировать определенные действия и получать от них полезные бизнес-результаты. Проблема, однако, в том, что чаще всего можно обнаружить в данных бездействующие корреляции. Итак, да, вы можете сказать, что у вас есть отличный набор данных и вы построили отличную модель (с исключительной точностью прогнозирования). Но до тех пор, пока вы не проведете A / B-тестирование этих данных, трудно по-настоящему оценить, какое влияние эти данные оказывают. Если вы не примените какой-либо тип рандомизации, в данных, скорее всего, останутся ошибки.
Самые сложные модели иногда могут быть самыми хрупкими. Люди часто стремятся иметь самые сложные модели. Самые сложные из них также обычно содержат наибольшее количество строк кода и часто могут быть относительно более «глючными» с модулями конвейера, которые также могут давать сбой. Выбирайте простую модель, которая поддерживает ключевые принципы более сложной модели глубокой нейронной сети, но гораздо более линейна и не требует такого большого количества данных. Всегда приятно иметь модель (или даже несколько моделей) с меньшими размерами в качестве запасного плана!
Будьте защищенными данными. Подход, основанный на учебниках, к данным, и в частности к обучению на основе данных, не так последовательнен, как вы думаете. Тони подчеркивает важность введения в данные упражнений типа «обезьяна хаоса» и выяснения того, как в результате изменятся алгоритмы. Например, что произойдет, если весь набор данных Netflix из Азиатско-Тихоокеанского региона будет уничтожен? Как отреагирует алгоритм? Постарайтесь сделать данные более надежными, но всегда обрабатывайте значения, также принимая во внимание неопределенности!
Знайте разницу между предсказуемостью (корреляцией) и причинно-следственной связью! Глубокое обучение - это прекрасно, равно как и методы машинного обучения… отлично подходят для прогнозирования! Однако они, как правило, узнают разницу между одним полем и другим, но не обязательно изучают причинно-следственные связи между разными полями. Реальность такова, что мы, как люди, намного больше, чем машины прогнозирования (или машины корреляции). Нас интересует и должна интересовать причинность. В результате всегда важно помнить, что может произойти, если вы обнаружите (просто) хорошие корреляции.

Мое любимое высказывание в панельной дискуссии:

Майк Райнер: "Какое для вас качество данных, Трент?"

Трент МакКонаги: «Все в формате PDF! Вы можете предположить, что во входящих данных есть полосы ошибок. И вы можете распространить это на всю модель, статистически используя метод Монте-Карло ».

История выступающих

Модератор:

Майк Райнер, соучредитель City AI и венчурный партнер Open Ocean. Майк инвестирует в инновационные стартапы из Европы и за ее пределами, в нескольких областях и отраслях, включая искусственный интеллект (который ему особенно нравится).

Эксперты:

Доктор Тони Джебара - профессор Колумбийского университета и директор по машинному обучению в Netflix. Неотъемлемая часть успешного внедрения машинного обучения в компании, Тони возглавляет команду, которая помогает Netflix ежегодно экономить миллиард долларов.

Илья Кирнос - партнер-основатель и технический директор SignalFire. До того, как стать соучредителем SignalFire, Илья работал инженером-программистом в Google (2004–2012). За время работы в Google Илья занимал несколько руководящих технических должностей. Он был техническим руководителем отдела рекламы в Gmail и отвечал за прогнозирование покупательских намерений и монетизацию Gmail. Илья также был техническим руководителем отдела эффективности и масштабируемости AdWords, где он контролировал скорость отклика и время безотказной работы интерфейса AdWords.

Трент МакКонаги - основатель и технический директор Ocean Protocol, децентрализованного субстрата для данных и сервисов искусственного интеллекта. Он разработан, чтобы стимулировать распространение общих данных вместе со многими рынками данных, сделать проверенные и защищающие конфиденциальность вычисления более доступными и предоставить источник данных для обучения, построения моделей и прогнозирования. Это, в свою очередь, может стимулировать автономное вождение, медицинские исследования и многое другое. Долгосрочная цель Трента - помочь человечеству сыграть свою роль во все более автономном мире.

Комментируйте, делитесь и обязательно подписывайтесь на нас в DataSeries, чтобы быть в курсе последних новостей нашей сети! Вы можете найти полнометражное видео ниже. Однозначно стоит посмотреть!

5 выводов данных из Netflix, SignalFire и Ocean Protocol

5 основных извлеченных уроков

История выступающих

Вопросы по теме