Начало работы с основами машинного обучения

Разоблачение машинного обучения

Люди на крючке, пока машины учатся

В наши дни машинное обучение - один из самых популярных терминов в отрасли. Глобальные технологические гиганты, такие как Google, Amazon Facebook и т. Д., Пытаются использовать возможности машинного обучения в своих продуктах. Хотя возможности для начинающих специалистов по обработке данных растут в геометрической прогрессии, большая группа людей не понимает, что такое машинное обучение.

И именно поэтому я здесь, чтобы помочь вам. Эта статья будет первой в серии статей под названием Рецепты машинного обучения, в которых мы рассмотрим все аспекты машинного обучения, сначала теоретически, затем математически и, наконец, практически.

В этой статье я попытаюсь дать вам интуитивное представление не только о том, что такое машинное обучение, но также о его различных типах, последних разработках и лучших ресурсах для начала работы с машинным обучением.

Что такое машинное обучение?

Машинное обучение - это приложение искусственного интеллекта (ИИ), которое дает компьютеру или любой машине возможность учиться и совершенствоваться на основе опыта без явного программирования. Цель машинного обучения - заставить машины делать что-то самостоятельно, без явного программирования.

Причина, по которой машины работают, - это высокая точность результатов, которые они доставляют, не утомляясь. Качество результата задачи, выполняемой человеком, может быть разным и иногда может быть утомительным, но машины могут выполнять часто повторяющиеся задачи с высокой точностью без какой-либо усталости и скуки.

С момента появления Интернета объем генерации данных значительно увеличился. Каждый раз, когда мы предпринимаем какие-либо действия на веб-сайте или в приложении, мы генерируем данные. Наряду с развитием облачных вычислений стоимость хранения данных также значительно снизилась, открывая путь для дальнейшего роста машинного обучения и смежных областей.

Искусственный интеллект против машинного обучения против глубокого обучения

Одна из самых больших проблем, с которой сталкиваются новички в этой области, - это разница между искусственным интеллектом (AI), машинным обучением (ML) и глубоким обучением (DL).

Искусственный интеллект - это метод, позволяющий машинам имитировать поведение человека. Конечная цель ИИ - создавать интеллектуальные машины, которые могут выполнять человеческие задачи и принимать собственные разумные решения.

Машинное обучение - это часть ИИ, в которой используются статистические методы, которые позволяют машинам совершенствоваться с опытом без явного программирования.

Глубокое обучение - это часть машинного обучения, в которой нейронные сети (похожие на нейроны человека) используются для имитации поведения человеческого мозга. Глубокое обучение вступает в силу, когда набор данных состоит из огромного количества наблюдений или точек данных.

Еще один важный термин, который обычно путают с машинным обучением, - это наука о данных. Наука о данных - это анализ данных, которые мы генерируем для получения различных сведений, которые потенциально могут служить множеству бизнес-целей.

Инструменты и Языки программирования, используемые в машинном обучении

Есть несколько инструментов и языков, которые можно использовать для машинного обучения. Точный выбор инструментов может отличаться, а используемые инструменты зависят от потребностей и масштаба операции.

Python и R являются наиболее предпочтительными языками программирования для машинного обучения. Данные обычно хранятся в файлах формата CSV, хотя также можно использовать таблицы Excel. Помимо этого базовые знания статистики необходимы для понимания алгоритмов машинного обучения.

Категоризация алгоритмов машинного обучения

Существуют различные виды алгоритмов машинного обучения, которые можно использовать в различных ситуациях. Как правило, существует три различных типа алгоритмов машинного обучения, а именно обучение с учителем, обучение без учителя и обучение с подкреплением.

Машинное обучение с учителем. Задачи машинного обучения с учителем - это задачи, в которых мы хотим делать прогнозы на основе набора примеров.

Проблема регрессии: проблемы, которые имеют дискретное значение в качестве результата, подпадают под зонтик регрессии. Например, цена дома - это проблема регрессии.
Проблемы классификации: когда мы хотим классифицировать результаты по разным классам. Например, вопрос о том, является ли рак доброкачественным или злокачественным. Результат может попасть в один из классов - злокачественный или доброкачественный. Точно так же вопрос о том, не выполнит ли клиент свою ссуду или нет, является проблемой классификации, которая представляет большой интерес для компаний, инвестирующих в финансы.

Неконтролируемое машинное обучение: проблемы неконтролируемого машинного обучения - это проблемы, при которых наши данные не имеют определенного набора категорий, а вместо этого мы ищем алгоритмы машинного обучения, которые помогут нам организовать данные.

Примерами проблем машинного обучения без учителя может быть геномика. В геномике мы предоставляем алгоритм с тысячами различных генов, который затем сгруппирует гены в группы связанных генов. Это могут быть гены, связанные с продолжительностью жизни, цветом волос и т. Д. Результат обычно достигается с помощью кластеризации или сегментации.

К различным алгоритмам обучения без учителя относятся k означает кластеризацию, иерархическую кластеризацию и нейронную сеть.

Другой тип исследования машинного обучения, который в последнее время набирает обороты, - это обучение с подкреплением. Его часто считают надеждой на настоящий искусственный интеллект. Обучение с подкреплением (RL) - это область машинного обучения, связанная с тем, как программные агенты должны действовать в среде, чтобы максимизировать понятие совокупного вознаграждения.

Данные для обучения модели машинного обучения

Количество данных для обучения модели машинного обучения зависит от проблемы, которую мы пытаемся решить. Существуют различные онлайн-репозитории, где вы можете найти наборы данных для обучения и построения модели машинного обучения.

Одними из самых популярных сайтов для получения данных для вашей модели являются Kaggle, UCI Machine Learning Repository и Google Dataset Search.

В наши дни данные доступны в большом количестве. От журналов на веб-сайтах и смартфонах до медицинских устройств - мы находимся в постоянном процессе создания данных.

Данные можно разделить на два типа:

Структурированные данные. Структурированные данные обычно относятся к данным, хранящимся в табличном формате в базах данных организаций.
Неструктурированные данные. Неструктурированные данные включают все данные, которые собираются, но не хранятся в виде таблиц на предприятиях.

Модели машинного обучения могут работать как со структурированными, так и с неструктурированными данными. Однако перед фактическим построением модели машинного обучения нам нужно сначала преобразовать неструктурированные данные в структурированные.

Этапы построения моделей машинного обучения

Первый шаг в построении модели машинного обучения - Сбор данных. Сбор данных относится к процессу сбора и измерения информации о целевых переменных в установленной системе.

Затем следует очистка и обработка данных для нашей модели. Анализ и очистка данных помогает нам удалить выбросы, отсутствующие значения и преобразовать данные в требуемый формат.

После подготовки наших данных мы обучаем модель на обучающих данных, а затем тестируем ее на тестовых данных. Наш последний шаг - улучшить нашу модель, чтобы добиться еще большей точности.

Это всего лишь краткое введение, чтобы дать вам интуитивное представление об этапах построения и развертывания моделей машинного обучения. Мы подробно обсудим эти шаги в следующих статьях.

Лучшие ресурсы для машинного обучения

Некоторые из лучших ресурсов для практики машинного обучения:

Машинное обучение Эндрю Нг, предлагаемый Coursera
Машинное обучение Nanodegree от Udacity
Ускоренный курс машинного обучения от Google
Специализация по машинному обучению, предлагаемая Coursera

Как уже неоднократно упоминалось, машинное обучение - очень активная область исследований. От Эндрю Нга до Питера Норвига о вкладе ведущих экспертов и исследователей невозможно переоценить.

Вы выбрали правильную карьеру в правильное время. Удачного обучения!