Машинное обучение для неспециалистов

Аудитория: бизнес-профессионалы, не являющиеся техническими специалистами, которые с трудом разбираются в технологиях и пытаются внедрить новые технологии в своих компаниях.

Машинное обучение проникает в компании всех размеров, и я обнаружил, что многие из тех, кто хочет внедрить его, не связаны с ИТ. Бизнес-клиенты могут объяснить результаты машинного обучения в приложении или наборе приложений, но с трудом понимают, что такое машинное обучение на самом деле, как оно работает и почему для получения желаемых результатов требуется больше времени, чем они думают.

Таким образом, я здесь, чтобы помочь тем из вас, кто борется с пониманием того, что такое машинное обучение, таким образом, чтобы, я надеюсь, лучше соединить точки.

Начнем с простого

Большая часть аудитории в значительной степени знакома с поиском Google. Вы что-то ищете, и он возвращает ответ. Вы ищете что-то и делаете это с ошибкой, и это дает вам предложение, подобное изображению выше: я искал «vegn», и он спрашивает, имел ли я в виду «vegan». Ну да, я имел в виду «веган»! Следующее мое действие — нажать на ссылку «веган», и я получаю результаты, которые изначально намеревался получить. Легкий!

Что тут происходит

Как Google узнал, что я хотел найти слово «веган»? Почему не «Вегас» или аббревиатура «VEGB»?

Прежде чем Google Search узнал, что те, кто набирает «vegn», обычно имеют в виду «vegan», должно было произойти что-то очень важное, чтобы поиск Google пришел к этому прогнозу. Итак, как он научился?

Давайте посмотрим, что произойдет, если я немного по-другому разделываю слово «веган»:

Что ж, каждый день узнаешь что-то новое! Мое неправильное написание слова «веган» на «венган», по-видимому, является испанским словом, означающим «приходи».

Почему он не спрашивает меня, как раньше: «Вы имели в виду веганство»?

Поиск в Google и контролируемое обучение

Чтобы поиск Google научился спрашивать меня «Вы имели в виду веганский», мне сначала нужно понять, что я написал «веганский» неправильно, удалить «венганский» из строки поиска и ввести правильное написание слова «веганский». В более пошаговом формате цикл выглядит так:

Введите «vengan», нажмите Enter, получите неверную информацию
Поймите, что я написал с ошибкой, и поэтому я вижу испанские переводы.
Немедленно повторно введите слово «веган», нажмите «Ввод» и получите правильную информацию.

Когда все больше людей, таких как я, будут повторять небольшой цикл ввода неправильного поискового термина «венган» и замены его правильным поисковым термином «веган», Google в конечном итоге начнет отображать предложение «Вы имели в виду веганский?». Именно в этот момент поиск Google наконец узнал, что люди, которые неправильно написали «венган», имели в виду «веган». Это не появляется, когда я ищу vengan сегодня, потому что не было достаточного количества циклов людей, кроме mysefl, которые выполнили шаги с 1 по 3 выше для этих конкретных условий поиска. Если достаточное количество людей обычно не пишет слово «веган» с ошибкой в написании «венган», то, скорее всего, никогда не появится «Вы имели в виду веган».

Это хороший пример обучения с учителем. Когда вы думаете о том, сколько раз это нужно сделать, чтобы перейти к предложению «Вы имели в виду…», вы можете начать понимать, что это может занять больше времени, чем вы думаете, для обучения модели машинного обучения, особенно более сложной, чем эта .

На шаг впереди

Помня о цикле орфографических ошибок, теперь подумайте о времени, когда вы задавали полный вопрос в Google, а затем задавали много других вопросов. Вполне возможно, что эти вопросы связаны с первым вопросом. Также возможно, что другие люди задавали те же те же связанные вопросы таким же образом, как и вы.

Допустим, я разговариваю за коротким рабочим обедом с моим близким другом, и я совершенно не знаю, как называется «человек, который не ест мяса». Я беру свой телефон со стола, ввожу в Google «человек, который не ест мясо» и вижу результаты с новым разделом «Люди также спрашивают»:

Это более точное представление машинного обучения, поскольку поиск Google может использовать комбинацию связанных вопросов, которые люди задавали после запроса поиска «человек, который не ест мясо» (обучение с учителем) плюс алгоритм машинного обучения, который сам узнал, какие вопросы связаны со всем этим, и начинает группировать похожие вопросы вместе без руководства человека, который его обучает.

Теперь это становится примером обучения без учителя, когда алгоритм машинного обучения учится на очень большом наборе данных (все вопросы поиска Google) и создает свои собственные кластеры связанных данных (вопросы о людях, которые не есть или есть только определенные виды продуктов) к нашему первоначальному поиску (человек, который не ест мясо). Как только у Google Поиска будет достаточно данных (достаточное количество примеров это является вопросом и это является ответом), он может установить отношения между этими вопросами и другими, которые могут быть похожими. .

Однако для того, чтобы добраться до этой точки, Google Search нуждается в начальном наборе хороших данных (с хорошей подготовкой человека), чтобы убедиться, что они получают правильный ответ. Что происходит, когда он получает плохое контролируемое обучение? Хотя в наши дни это встречается реже, вы можете поискать Google Bombing, чтобы получить представление. Бизнес может добиться наилучших результатов в своей собственной среде машинного обучения благодаря тщательному сотрудничеству между своими тренерами-людьми и алгоритмами машинного обучения.

Почему все это имеет значение?

Время и деньги. В эпоху теперь всеодна вещь, которую Google Поиск сделал, это позволила нам быстрее получить ответ с помощью алгоритма машинного обучения или набора алгоритмов (который представляет собой причудливое слово для набора правил или пошаговых процессов).

Да, возможно, я сэкономил всего 1 или 2 секунды времени с помощью ссылки Google «Вы имели в виду вегана» вместо того, чтобы перепечатать правильное слово, но секунды в наши дни становятся очень ценными, особенно в бизнесе, когда эти секунды масштабируются на тысячи сотрудников. в организации, которая тратит время на поиск ответов о внутренних документах, руководствах, продуктах, базах знаний, клиентах, задачах, предложениях и т. д. Это деньги на ветер.

Если вам интересно узнать больше о том, как машинное обучение может помочь вашей организации, свяжитесь со мной через Twitter или LinkedIn. Не бывает глупых вопросов, и я буду рад помочь в обучении всех, кто хочет узнать об этой увлекательной технологии.

Синди Эспиноза — консультант по решениям и специалист по продажам, который согласовывает деловые и технологические цели.