Избавляемся от модных словечек в машинном обучении

Технические детали машинного обучения могут быть головокружительно сложными. Но на более высоком уровне - уровне, который вам нужно усвоить, чтобы понять, что такое машинное обучение и что он делает - его можно понять без какой-либо математики или программирования.

Проблема с тем, чтобы говорить о технических вещах нетехнически, однако, заключается в безудержном и неправильном использовании модных словечек. Чтобы бороться с этим, давайте определим некоторые из наиболее широко используемых концепций, относящихся к области машинного обучения.

Для этого сначала посмотрим на информационную пирамиду (слегка измененный вариант пирамиды DIKW):

В самом низу пирамиды находятся данные, которые - среди многих других форм - могут храниться в таблице, коллекции изображений или быть распределены по кучке неорганизованных файлов.

Данные сами по себе бесполезны. Цель использования данных для любого процесса - принимать лучшие решения, и по мере продвижения вверх по пирамиде мы переходим от необработанных данных, которые являются зашумленными и трудно интерпретируемыми, к пониманию и, наконец, к чему-то действенному - решению.

Давайте теперь попробуем определить несколько модных словечек - от больших данных до глубокого обучения - в терминах этой пирамиды.

Большое количество данных

Для большинства людей «большие данные» означают «больше данных, чем я привык» в нижней части пирамиды. Если вы привыкли принимать решения на основе сотен точек данных, любой объем данных, не помещающийся в таблицу Excel, может показаться вам слишком большим. Если вы работаете в масштабе Google, большие данные могут начинаться с объемов, которые не умещаются в одном центре обработки данных.

Хорошее эмпирическое правило заключается в том, что данные становятся большими данными, когда они больше не помещаются в память (ОЗУ) одной машины, что сегодня означает примерно 1 ТБ или 1000 ГБ. (Самые большие машины на Amazon Web Services имеют около 4 ТБ ОЗУ.)

Data Science

Наука о данных - это широкий термин, который включает любую деятельность, которая помогает нам двигаться вверх по пирамиде. Это может включать

ворчание вроде очистки и предварительной обработки данных,
составление отчетов и проведение разовых анализов,
создание визуализаций и информационных панелей для лиц, принимающих решения,
построение моделей, которые автоматически принимают решения. (Здесь на помощь приходит машинное обучение, но об этом позже.)

Это очень широкое определение, в основном потому, что «наука о данных» - относительно новый термин и, следовательно, не имеет точного определения.

Машинное обучение

Одним из методов науки о данных является машинное обучение, цель которого - автоматически переходить от входных данных к решениям. Обычно это означает «обучение модели», то есть изучение компьютерной программы на примерах, в отличие от явного определения каждого шага, который должен быть выполнен (классический подход к программированию).

Еще одно сравнение с классическим программированием - через тестовые примеры. Обычно качество и полнота программного обеспечения оцениваются с помощью тестов, и для каждой задачи существует около 10–100 различных тестовых примеров - примеров ввода с желаемым результатом.

Подход машинного обучения использует 1000 или более «тестовых примеров» (на самом деле тесты - это правильно решенные примеры из реального мира), но вместо того, чтобы просто проверять качество программы на этих примерах, программа изучается от них.

Глубокое обучение

Глубокое обучение - это разновидность машинного обучения. За последние пять лет он добился значительного прогресса и был применен к множеству проблем более успешно, чем кто-либо предполагал.

Однако глубокое обучение - это не волшебная палочка. Во-первых, он обеспечивает очень хорошую производительность только с некоторыми типами данных: изображениями, видео, аудио и текстом. Это контрастирует с большинством бизнес-задач, которые обычно включают обнаружение мошенничества и сегментацию клиентов, и не требует обнаружения кошек, стульев и бананов по изображениям.

Глубокое обучение также требует огромных объемов данных для успешного выполнения задачи - обычно это миллионы точек данных. Есть способы преодолеть это для некоторых задач (решение - использовать работу других людей и наборы данных), но не всегда. График ниже, первоначально от Эндрю Нг, показывает, что преимущество глубоких нейронных сетей становится очевидным только в том случае, если ваш набор данных достаточно велик, а с небольшими наборами данных классические подходы обычно работают лучше.

Еще одна проблема с глубоким обучением заключается в том, что его на удивление сложно реализовать. Довольно легко получить первый прототип с помощью классического машинного обучения, но методы глубокого обучения сегодня часто настолько привередливы, что простое воспроизведение того, что опубликовали другие люди, может занять месяцы.

Искусственный интеллект

AI - очень расплывчатый термин. Он также может описывать область исследования, но часто используется для описания продукта или системы, которые считаются «имеющими ИИ» или «умными».

ИИ не относится к какому-либо конкретному техническому подходу: напротив, это означает, что система кажется разумной для пользователя. Если вы можете написать нормальное программное обеспечение, которое кажется разумным - вроде чат-бота, созданного в 60-х, - люди будут счастливы называть это искусственным интеллектом.

Расплывчатость термина также является хорошим диагностическим тестом: если кто-то использует термин «ИИ», чтобы что-то вам объяснить, он либо думает, что вы ничего не понимаете в этой области, либо они сами этого не понимают.

Это был очень краткий обзор основных концепций машинного обучения. Теперь вы знаете достаточно, чтобы понять, какие обсуждения мы будем проводить на этом сайте - взгляните на другие наши статьи здесь и узнайте о возможностях, которые машинное обучение предлагает вашей компании.

Авторы: Тайво Пунгас, Джунатан Самуэль, Карин Крууп, Гэри Монро.

Принесено вам компанией DataMob.