CrowdFlower и Microsoft, лучше вместе

Около года назад команды CrowdFlower и Microsoft Azure Machine Learning собрались вместе, чтобы обсудить общее видение. Это общее видение заключалось в том, чтобы сделать машинное обучение основным направлением бизнеса, чтобы десятки тысяч компаний могли развертывать интеллектуальные приложения. Когда команды обсуждали это общее видение, стало очевидно, что у каждого из нас есть разные части головоломки, и что вместе мы могли бы быстрее воплотить это видение в реальность.

Сегодня мы с гордостью объявляем об общедоступном совместном решении CrowdFlower AI на основе машинного обучения Microsoft Azure, которое вы можете проверить на ai.crowdflower.com. Мы совместно разработали это решение, потому что знали, что для достижения общего видения массового внедрения машинного обучения в компаниях нам сначала нужно было устранить практические препятствия, препятствующие этому сегодня.

Препятствия для внедрения машинного обучения

Освещение в СМИ ИИ и машинного обучения стало мейнстримом. Мы видели статьи в The Economist и Vanity Fair, мы видели эмоциональные рассказы об автопилоте Tesla и угрозе искусственного интеллекта для человечества таких корифеев, как Стивен Хокинг, и мы даже видели Дилберт шутят об искусственном интеллекте и человеческом интеллекте.

Но освещение в СМИ не совсем точно отражает то, как машинное обучение внедряется за пределами технологической элиты (амазонки, яблоки, фейсбуки, гуглы, майкрософты, тесла и уберы всего мира, которые могут бросить огромные ресурсы на решение проблем на миллиарды долларов, таких как самопомощь). вождения автомобилей, помощников ИИ и автономных дронов). Чтобы машинное обучение стало коммерчески жизнеспособным в рамках основного бизнеса, нам нужно было устранить два основных препятствия на пути внедрения.

Барьер 1: отсутствие высококачественных настраиваемых обучающих данных

Модели машинного обучения нуждаются в обучающих данных. Без обучающих данных модель не может учиться. Это как купить машину, а заправок нет. Вы только что купили дорогой кусок металла, который никуда не денется. Машины не могут сами создавать обучающие данные. Человеческий интеллект необходим для создания начальных обучающих данных, на основе которых модель может учиться, находить закономерности и делать прогнозы.

Машинное обучение без обучающих данных похоже на автомобиль без бензина. Это никуда не денется.

Итак, первым препятствием, которое нам пришлось устранить, было отсутствие обучающих данных. Наша основная компетенция — генерация специализированных высококачественных обучающих данных в большом количестве. Наша платформа «человек в цикле» сгенерировала более 2 миллиардов человеческих суждений для текстовых, изображений, видео и аудио обучающих наборов данных для ведущих групп специалистов по обработке и анализу данных.

Есть 3 важных аспекта, которые необходимо учитывать при создании обучающих данных, чтобы ваша модель машинного обучения могла обучаться. Во-первых, вам нужно настроить данные тренировки. Вы определяете, как вы хотите, чтобы данные собирались и структурировались. Способ, которым вы хотите классифицировать свои запросы в службу поддержки, будет зависеть от вас. Бизнес-правила, определяющие уровни 1, 2, 3, 4 или 5, для вас отличаются от правил других компаний. Во-вторых, вам нужно большое количество обучающих данных, чтобы у модели машинного обучения было достаточно точек данных, чтобы узнать о различных классификациях и возможных результатах. В-третьих, вам нужны качественные обучающие данные. Люди совершают ошибки. Итак, вам нужна методология и платформа, которая применяет эту методологию для обеспечения высокого качества от людей. Платформа CrowdFlower удовлетворяет всем трем требованиям к обучающим данным — индивидуальной настройке, большому количеству и высокому качеству.

Наличие обучающих данных и возможностей модели машинного обучения на одной платформе означает, что вы сможете быстрее развернуть модель машинного обучения. Но это приводит ко второму барьеру на пути к усыновлению.

Барьер 2: безопасные сбои моделей машинного обучения

Представьте, что ученый по данным обращается к вице-президенту по поддержке клиентов и говорит: «У меня есть модель машинного обучения, которая работает правильно в 70% случаев. Я думаю, что мы должны внедрить его в производство для классификации наших обращений в службу поддержки и прекратить использование людей». Вице-президент службы поддержки посмеется над Data Scientist и скажет: «Я не могу позволить себе ошибаться в 30% случаев. Поэтому я не могу использовать вашу модель».

Так как же компаниям выйти из этого тупика? Решением является подход, называемый «человек в цикле», когда модель обрабатывает прогнозы там, где она уверена, но передает прогнозы на проверку человеку, когда она не уверена. Если вы внедряете машинное обучение без участия человека в цикле, вы говорите, что у вас есть 100% уверенность во всех прогнозах модели. Если вы сделаете это, у вас будут предотвратимые плохие результаты.

Машинное обучение без участия человека в цикле приводит к плохим результатам

Ранее в этом году Facebook столкнулся с критикой за то, что функция В тренде показывала новости, направленные против консерваторов. В ответ на эту критику компания уволила всех редакторов-людей для Trending, заменив их алгоритмом, который продвигает истории, полностью основанные на том, о чем говорят пользователи Facebook. В течение 72 часов, по данным Washington Post, главной новостью в Trending стала фейковая история о том, что икона Fox News Мегин Келли была проклинтоновской предательницей, которую уволили. Подход с участием человека в цикле предотвратил бы этот явно ошибочный результат.

Если вы применяете Human-in-the-loop, то вы начали автоматизировать бизнес-процесс. Изначально этот бизнес-процесс — скажем, классификация обращений в службу поддержки — на 100 % выполняется человеком. Затем с помощью модели машинного обучения обрабатываются случаи с высокой степенью уверенности, которые составляют, возможно, 10–20% объема, но люди по-прежнему обрабатывают подавляющее большинство, потому что модель еще недостаточно надежна. Со временем модель продолжает получать новые обучающие данные — человеческий результат — и становится более точной и уверенной, поэтому процент работы, выполняемой моделью, увеличивается. Кроме того, резко возрастает объем работы, которую можно выполнить с помощью этого полуавтоматического процесса.

ИИ — это машины, дополняющие людей, а не заменяющие их

Такой подход развеивает один из основных мифов о том, что ИИ пропагандируется в основных СМИ. Этот миф заключается в том, что ИИ — это машины, заменяющие людей. У машин и людей есть взаимодополняющие сильные стороны. ИИ — это искусство и наука, объединяющие сильные стороны машинного обучения и человеческого интеллекта. Это был основной принцип разработки CrowdFlower AI.

AI = TD + ML + HITL

Поэтому мы запустили совместное решение «CrowdFlower AI на базе машинного обучения Microsoft Azure», чтобы устранить эти препятствия на пути внедрения. Теперь впервые на одной платформе у вас есть рабочие процессы данных обучения (TD), машинного обучения (ML) и «человек в цикле» (HITL).

CrowdFlower AI — это обучающие данные, машинное обучение и человек в цикле в интегрированном решении

Так почему вас это должно волновать? Является ли это случаем 1 + 1 + 1 = 3? Или 1+1+1= 30? Мы считаем, что это последнее.

Вот почему вы должны заботиться.

Во-первых, сократилось время создания первой модели машинного обучения. За считанные часы вы можете сгенерировать настраиваемые данные для обучения и создать модель машинного обучения. На что у тебя уходили недели и месяцы. Сейчас дни.

Во-вторых, теперь вы можете внедрить это машинное обучение в производство с помощью системы безопасности «человек в цикле». Это означает, что вы быстрее получаете бизнес-преимущества от увеличения объема и снижения затрат без ущерба для качества.

В-третьих, мы изменили начальные затраты, чтобы применить ИИ к вашему бизнесу. Благодаря этому совместному решению мы снизили начальную цену до уровня ниже 100 000 долларов США. Это означает, что теперь для 10 000 компаний коммерчески выгодно применять ИИ в своих основных бизнес-процессах, таких как классификация запросов в службу поддержки или понимание настроений клиентов в социальных данных. Ранее ИИ был доступен только компаниям, которые могли инвестировать 10 миллионов долларов для начала работы.

Сегодняшний день знаменует собой начало пути к широкомасштабному внедрению машинного обучения. Мы очень рады начать это путешествие в партнерстве с Microsoft. Чтобы узнать больше о том, применимо ли это решение к вам, посетите ai.crowdflower.com.

Робин — главный исполнительный директор CrowdFlower, присоединившийся к компании в феврале 2015 года. Робин провел последние два десятилетия, помогая быстрорастущим компаниям запускать и масштабировать платформы и продукты на быстро меняющихся рынках. Вне работы Робин проводит время, пытаясь не отставать от своих двух маленьких детей и наслаждаясь всем, что может предложить район залива.

CrowdFlower и Microsoft, лучше вместе

Препятствия для внедрения машинного обучения

Барьер 1: отсутствие высококачественных настраиваемых обучающих данных

Барьер 2: безопасные сбои моделей машинного обучения

AI = TD + ML + HITL

Вопросы по теме