Под капотом - грязная правда о машинном обучении

Возможно, вы этого не знаете, но каждый раз, когда вы вводите размытые цифры со снимка экрана Google Street View, чтобы доказать, что вы не бот, вы тренируете модели компьютерного зрения Google. Каждое нажатие клавиши из краудсорсинга - это еще одна точка данных, созданная человеком для обучения их моделей машинного обучения - и они получают ее бесплатно.

Во всем ажиотаже, связанном с машинным обучением и искусственным интеллектом, иногда упускается из виду, что на этой ранней стадии своего развития они зависят не только от вычислительной мощности, но и от ручного труда человека. Для создания данных, маркировки и обучения моделей требуются миллионы и миллионы часов человеческих усилий. Затем нужно еще проверить, повторить, усилить. Человеческий труд, человеческие ошибки, человеческие предубеждения - все это отражено в модели, которая никогда не будет полной.

Как выяснила команда стартапов из Dash, иногда из-за этого труда можно попасть в больницу.

Dash, основанная в 2014 году, ранее была известна своей продукцией Fitbit для вождения. Сегодня, хотя мы продолжаем предлагать их потребительские приложения более чем 450 000 пользователей по всему миру, мы сосредоточены на том, как эти движущие данные могут быть использованы на предприятии для профилактического обслуживания и обучения моделей рисков для автономного будущего. Компания потихоньку создавала свою Платформу автомобильного интеллекта для корпоративного бизнеса, работая с организациями от Ford до Министерства транспорта в сфере автомобилестроения, страхования, автопарка и умного города.

В прошлом году к Dash обратилась Johnson Controls, компания по производству энергетических решений с оборотом 35 миллиардов долларов, которая ежегодно производит 150 миллионов автомобильных аккумуляторов. Джонсон недавно вложил значительные средства в Интернет вещей, включая запуск Glas, своего интеллектуального термостата, работающего на базе Microsoft Cortana. Джонсон призвал команду Dash создать алгоритм для прогнозирования выхода из строя автомобильных аккумуляторов, используя данные удаленной диагностики Dash и возможности машинного обучения.

В течение трех месяцев команда построила гибридную байесовскую модель машинного обучения, которая дала уровень точности более 85% (по сравнению с отраслевыми стандартными инструментами с уровнем достоверности 60%).

Итак, как мы это сделали?

«Часы изнурительного ручного труда», - смеется главный научный сотрудник Dash, профессор Сэм Хуэй.

Чтобы построить модель, команде потребовалось получить сотни автомобильных аккумуляторов разного размера и состояния (от совершенно новых до почти разряженных), а затем протестировать их на сотнях автомобилей разных марок, моделей и лет. Тест включал в себя движение по строго расписанным 20-минутным маршрутам как с полной электрической нагрузкой, так и без нее (например, радио, обогрев сидений). И они сделали это как в жарком, так и в холодном климате, в Европе и Северной Америке. По словам Брайана Лангела, технического директора и соучредителя, «это включало в себя вождение в глухую зиму Висконсина с включенным кондиционером». Не смешно. Особенно в сочетании с ручным трудом по установке и удалению сотен 40-фунтовых автомобильных аккумуляторов ».

Вот так генеральный директор и соучредитель Dash оказался в больнице, получив инъекции стероидов в спину и многочасовую изнурительную физиотерапию. «Обучение моделям машинного обучения может быть болезненным, - сказал генеральный директор и соучредитель Dash Джеймин Эдис.

Тяжелая работа окупилась, и теперь команда Dash работает над еще полдюжиной моделей профилактического обслуживания, касающихся фильтрации, замены свечей зажигания, износа шин и многого другого. Кроме того, мы создали алгоритмы, использующие данные о транспортных средствах, которые могут прогнозировать как актуарный риск для страхования, так и идентифицировать отдельных водителей на основе стиля вождения, что полезно для автопарков.

И мы только начинаем использовать эту возможность. Что нас больше всего волнует, так это то, что мы вновь сосредоточили внимание на привлечении корпоративных водителей для увеличения скорости сбора данных, а также на использовании этих данных для обучения автономных транспортных средств тому, как реагировать на людей-водителей. Последнее особенно важно, поскольку водители-люди и роботы, вероятно, будут совместно использовать дороги в течение двух десятилетий, прежде чем полная автоматизация 5-го уровня станет повсеместной.

«Пока мы ждем будущего, мы должны обслуживать автомобили на дороге сегодня», - сказал Эдис.