Часть 1. Краткий обзор

Хотя область науки о данных и машинного обучения является относительно молодой, существует невероятное количество доступных ресурсов, и каждый день публикуется еще больше.

Независимо от того, делаете ли вы первые шаги на пути к освоению машинного обучения или находитесь на более продвинутой стадии процесса обучения: огромное количество информации в Интернете может привести к потере ориентации и мотивации идти в ногу со временем. .

Чтобы освоить машинное обучение в 2023 году, в этой серии блогов будет представлен четкий обзор основных областей машинного обучения и науки о данных, включая наиболее важные ресурсы для начинающих и продвинутых учащихся.

Но сначала мы должны определить, что такое машинное обучение:

В отличие от систем с жестким кодом, Гудфеллоу в книге Глубокое обучение (2016) определяет машинное обучение как способность систем ИИ [...] приобретать собственные знания, извлекая шаблоны из необработанных данных.

Чтобы понять, какое место занимают машинное обучение и глубокое обучение во вселенной ИИ, на иллюстрации ниже представлен фантастический обзор:

Теперь какие основные области необходимо охватить, чтобы успешно самостоятельно изучить машинное обучение?

Чтобы стать экспертом по машинному обучению, вам необходимо получить глубокое понимание нескольких предметных областей. Вот обзор пяти основных областей, на которых вы должны сосредоточиться:

  1. Математика и статистика. Машинное обучение в значительной степени опирается на математические основы. Вы должны хорошо разбираться в линейной алгебре, исчислении, теории вероятностей и статистике. Особенно важны такие темы, как матричные операции, алгоритмы оптимизации и статистический вывод.
  2. Программирование. Для реализации алгоритмов машинного обучения и работы с большими наборами данных программирование имеет решающее значение. Python — самый популярный язык программирования в области машинного обучения благодаря обширным библиотекам и платформам (например, NumPy, Pandas, TensorFlow, PyTorch, scikit-learn). Ознакомьтесь с Python и получите опыт работы с данными, визуализации и реализации алгоритмов. Альтернативным способом является язык программирования R, который также очень популярен (особенно среди статистиков).
  3. Алгоритмы машинного обучения. Получите глубокие знания о различных алгоритмах машинного обучения, которые позволят вам эффективно решать широкий спектр задач и выбирать для них подходящие модели. Алгоритмы машинного обучения можно разделить на контролируемые методы (линейная регрессия, логистическая регрессия, деревья решений, машины опорных векторов…) и неконтролируемые методы (кластеризация, уменьшение размерности…).
  4. Глубокое обучение. Глубокое обучение произвело революцию во многих областях машинного обучения, особенно в компьютерном зрении и обработке естественного языка. Изучите архитектуры глубокого обучения, такие как нейронные сети (упреждающие, рекуррентные, сверточные), и узнайте, как их обучать с помощью библиотек и фреймворков, таких как TensorFlow или PyTorch. Вам следует изучить сетевые методы, такие как свертка, объединение и регуляризация.

Предварительная обработка данных. Всегда помните: "Модель машинного обучения хороша настолько, насколько хороши данные, которые она передает". Прежде чем передавать данные в модели машинного обучения, важно шаг в любом проекте для предварительной обработки и очистки данных. Существуют различные методы обработки пропущенных значений, масштабирования признаков, проектирования признаков и обработки категориальных переменных. Важно знать, как разделить данные на наборы для обучения, проверки и тестирования, чтобы эффективно оценить производительность модели.

Сосредоточив внимание на этих основных областях, вы создадите прочную основу, которая позволит вам решать широкий круг проблем. Помните, что машинное обучение — это быстро развивающаяся область. Поэтому будьте в курсе последних научных работ, присоединяйтесь к онлайн-сообществам, а также работайте над реальными проектами, что поможет вам повысить свой опыт.

В любом случае, каждый из следующих пяти постов этой серии блогов будет подробно освещать одну из представленных выше основных областей. В частности, я попытался собрать и перечислить наиболее важные ресурсы для работы в этой конкретной области.