Познакомьтесь с Келли Дэвис, менеджером / техническим руководителем группы машинного обучения в Mozilla. Его работа в Mozilla включает разработку открытой системы распознавания речи с помощью таких проектов, как Common Voice и Deep Speech (в которых вы можете внести свой вклад). Помимо его страсти к физике и машинному обучению, читайте дальше, чтобы узнать о том, как он видит будущее ИИ, и о советах, которые он предлагает молодым людям, желающим войти в эту область.

Мы взяли интервью у Келли в рамках серии Модели для подражания AI4ALL в ИИ, в которой рассказываем о перспективах людей, работающих в сфере ИИ. Возвращайтесь здесь по средам для новых интервью.

Как рассказала Николь Халми из AI4ALL Келли Дэвис; отредактировал Панчами Бхат из AI4ALL

NH: Как вы решили получить степень бакалавра и получить докторскую степень по физике? Вы интересовались этой областью в молодом возрасте или открыли ее для себя в колледже? И как вы стали специализироваться на машинном обучении?

KD:

Когда я был молод, я бесконечно увлекался физикой и пониманием нашего мира на более глубоком уровне. Чем больше я узнавал о мире, тем больше у меня сохранялся трепет.

В конце 90-х, во время первого интернет-бума, я жил в Вашингтоне, округ Колумбия, со своими друзьями, и я смутно видел будущее технологий - что компьютеры смогут разговаривать с нами, понимать нас и поддерживать с нами разговоры. Вместо того, чтобы создавать стартап, который бы напрямую ассоциировался с этим, мы решили создать арт-коллектив. Мы создавали инсталляционные элементы, и чтобы они могли взаимодействовать с посетителями галереи, мы в конечном итоге узнали о нейронных сетях и машинном обучении. Так я впервые заинтересовался машинным обучением.

Позже, в 2011 году, с другим другом из Немецкого исследовательского центра искусственного интеллекта (DFKI) мы создали стартап. Стартап создал агентов ИИ, чтобы отвечать на общие вопросы, используя Интернет в качестве источника данных. Этот тип машинного обучения был нашим секретным оружием, поскольку нам нужны были машины, чтобы научиться делать то, что мы не могли делать, и чтобы писать код, для которого у нас не было возможностей. Мы глубоко погрузились в технологии машинного обучения, чтобы создать этого агента.

Затем я присоединился к Mozilla в 2015 году как часть Firefox OS, операционной системы для смартфонов, над которой Mozilla работала в то время. Моя роль заключалась в создании виртуального помощника, очень похожего на Siri, но для Firefox OS. К сожалению, Firefox OS не принесла успеха, как всем хотелось бы. Однако, пытаясь создать этого виртуального помощника, я обнаружил, что в сообществе открытого исходного кода есть зияющие дыры для распознавания речи и связанных наборов речевых данных. Итак, я работал над попыткой залатать эти дыры в сообществе открытого исходного кода. Первоначально группа машинного обучения была сосредоточена на создании механизма распознавания речи, а также на сборе данных, чтобы мы могли открывать исходные данные для реального обучения этому движку. Благодаря нашему успеху у нас есть больше свободы смотреть на проекты, от чего-то вроде автоматического резюмирования до синтеза речи и разговорных агентов.

Можете ли вы описать, чем вы занимаетесь как исследователь машинного обучения в Mozilla? Как выглядит для вас обычный день? Над какими проектами вы работаете?

Я менеджер группы машинного обучения, поэтому многое из того, что я делаю, - это забота о стаде. Я просыпаюсь рано, потому что я лучше всего сосредотачиваюсь по утрам. Обычно я начинаю свой день с чтения и написания исследовательских работ, выгуливаю своих собак по реке Шпрее (которая протекает через центр Берлина), завтракаю и отвечаю на электронные письма.

После этого я работаю над множеством вещей, начиная с индивидуальных встреч с моей командой. Я проверяю их прогресс в проектах и ​​помогу преодолеть любые препятствия, с которыми они сталкиваются в своей работе. У нас также есть внутренний клуб журналов, где каждую неделю кто-нибудь представляет исследовательскую работу, которую они сочли интересной за неделю.

Я встречаюсь с внешними партнерами Mozilla. Партнеры могут помочь объединить ресурсы данных для Common Voice или рассказать об усилиях по интернационализации, которые сейчас предпринимаются в Common Voice. В Mozilla также есть внутренние группы, которые используют наше программное обеспечение, и я могу встретиться с ними, чтобы увидеть, что мы можем изменить или улучшить, или понять новые технологии машинного обучения, которые мы можем предоставить.

Вы можете рассказать о проекте «Общий голос»? Какова цель этого проекта? Почему это важно? Могут ли люди по-прежнему вносить свой вклад?

Общий голос и Глубокая речь - это наш двусторонний подход к открытому распознаванию речи. В частности, Deep Speech открывает миру алгоритмы распознавания речи и связанные с ними модели. По сути, мы создали нашу собственную систему распознавания речи с нуля, используя фреймворк машинного обучения TensorFlow.

Одна из больших проблем при обучении такой системы распознавания речи - это нехватка открытых данных. Существующие данные контролируются несколькими крупными компаниями, а открытые наборы данных в основном доступны только на английском языке. Данных, доступных для покупки, недостаточно для создания качественной системы распознавания речи.

Common Voice решает эту проблему с данными. Люди могут записывать, как они читают предложения, и мы сохраним эти данные. В качестве альтернативы люди могут послушать, как другой человек читает предложение вслух, а затем проверить, правильно ли этот человек произнес отображаемое предложение. Набор данных предложений и связанного звука, который мы собираем из Common Voice, используется для обучения движков распознавания речи.

Мы начинаем с английского, но собираемся перейти на другие языки. Тогда мы сможем создавать открытые механизмы распознавания речи и открытые модели на разных языках и с разными акцентами, независимо от пола, пола или возраста. Мы открываем слово миру.

Каким моментом в вашей работе вы больше всего гордитесь?

Когда наша система распознавания речи стала сверхчеловеческой. Мы проверяем, где наш конкретный механизм распознавания речи основан на наборе данных. Набор данных был протестирован на людях, поэтому мы знаем, что около 5,8% слов неправильно понимаются людьми для этого конкретного набора данных. Совсем недавно наша система распознавания речи превзошла этот человеческий тест на 5,6%.

В чем, по вашему мнению, ИИ окажет наибольшее влияние в ближайшие 5 лет? Какие важные дела люди должны делать, чтобы создать хорошее будущее для ИИ?

На пятилетний вопрос ответить стало труднее. Многие работы по ИИ и глубокому обучению стали очень успешными. Двадцать лет назад было легче заглядывать в будущее на 5 лет, а сейчас становится все труднее и труднее, потому что вещи, которые казались невозможными, теперь становятся возможными.

AlphaGo является конкретным примером этого. Два года назад люди обычно думали, что создание алгоритма, позволяющего превзойти лучших профессионалов в го, - задача 10 лет. Они подумали: «О, через 10 лет мы сможем это сделать». Однако год спустя появилась AlphaGo, которая обошла лучших профессионалов в го. Становится все труднее предсказать, что произойдет через пять лет, из-за совокупного прогресса в области ИИ.

Чтобы создать более позитивное будущее для ИИ, нам необходимо расширять и диверсифицировать пул талантов, работающих над ИИ.

Проблема, с которой люди сталкиваются в области искусственного интеллекта или в любой другой области исследований, возникает, когда существует единое представление о конкретных проблемах. Это не способствует поиску решений, если все проводят одну и ту же лобовую атаку, и все они терпят неудачу. Однако из-за разнообразия точек зрения и идей в конкретной области проблемы становятся более легко решаемыми. Это основа работы команды открытых инноваций Mozilla, которая разрабатывает проекты, инфраструктуру и стимулы, которые позволяют максимально эффективно решать проблемы на основе совместной работы.

Еще одна причина диверсификации заключается в увеличивающемся экономическом разрыве, особенно в США. Ясно, что ИИ стал и станет более распространенным, и люди, работающие над ИИ, будут иметь относительно разумно оплачиваемую работу. Один из способов сократить экономический разрыв - диверсифицировать пул талантов в области ИИ.

Что вы посоветуете молодым людям, интересующимся ИИ, которые, возможно, только начинают свой карьерный путь?

Два совета. Во-первых: изучите основы и хорошо их усвойте. Убедитесь, что вы знаете линейную алгебру, теорию вероятностей, теорию информации и алгоритмы, потому что эти фундаментальные единицы используются снова и снова в работе, которую вы будете выполнять долгие годы.

Во-вторых, научиться учиться. На протяжении всей карьеры вам придется изучать новое, например алгоритмы, технологии, методы машинного обучения. Если вы потратите время на то, чтобы понять, как вы учитесь лучше всего, усилия, вложенные в это, будут усугубляться, а ваши знания со временем увеличиваются.

О Келли

Келли Дэвис изучала математику и физику в Массачусетском технологическом институте, затем продолжила дипломную работу в области теории суперструн / М-теории, работая с «гениальными грантополучателями» (стипендиатами Макартура), такими как Дэниел Фридан, Натан Зайберг и Стивен Шенкер. Затем он перешел к программированию, присоединившись к стартапу, который в конце 90-х стал публичным. После этого он решил переехать в Берлин и стать участником стартапа, работающего над пониманием естественного языка.

В 2002 году он присоединился к Институту гравитационной физики Макса Планка, где работал над программными системами, используемыми для моделирования слияния черных дыр. Снова перескочив через забор, он вернулся в промышленность и работал в Mental Images / NVIDIA, создавая программное обеспечение для 3D-рендеринга. После этого он работал над пониманием естественного языка в стартапе, 42 года, создавая систему на основе IBM Watson, которая может отвечать на общие вопросы. Келли присоединился к Mozilla в 2015 году, где сейчас возглавляет группу машинного обучения, работающую над STT, TTS, NLU и различными другими проблемами машинного обучения. Он работает в берлинском офисе Mozilla.

Этот пост был первоначально опубликован в блоге AI4ALL как часть серии Ролевые модели в ИИ . Переиздано здесь с разрешения AI4ALL. AI4ALL - это некоммерческая организация, работающая над увеличением разнообразия и вовлеченности в искусственный интеллект. Наше видение состоит в том, чтобы ИИ разрабатывался широкой группой мыслителей и деятелей, продвигающих ИИ на благо человечества. Узнайте больше об AI4ALL здесь.