Я успешно завершил первую часть Наностепень инженера по машинному обучению с Udacity. Первая часть — это Machine Learning Foundation, посвященная контролируемому и неконтролируемому обучению.

Это версия TL;DR того, что я узнал до сих пор.

Что такое машинное обучение: вводная глава с некоторыми примерами машинного обучения на практике.

Вводный практический проект: Исследование выживания на Титанике — выяснение того, какие пассажиры с большей вероятностью пережили трагедию.

Введение в NumPy и Pandas

Обучение и тестирование моделей: настройка параметров вручную и автоматически

Показатели оценки: матрица путаницы, точность, точность, полнота, показатель F1, показатель F-бета, показатели регрессии.

Выбор модели: типы ошибок, график сложности модели, перекрестная проверка, перекрестная проверка K-кратности, кривые обучения, переоснащение и недообучение, поиск по сетке

Проект 1: прогнозирование цен на жилье в Бостоне

Линейная регрессия: абсолютный и квадратичный прием, градиентный спуск, средние абсолютные и квадратичные ошибки, минимизация функций ошибок, мини-пакетный градиентный спуск, множественная линейная регрессия, полиномиальная регрессия, регуляризация L1 и L2

Алгоритм персептрона: проблемы классификации, перцептроны и логические операции, алгоритм персептрона

Деревья решений: рекомендуемые приложения, энтропия, многоклассовая энтропия, случайные леса, гиперпараметры

Наивный байесовский подход: действительно классное объяснение теоремы Байеса, байесовское обучение, построение классификатора спама.

Машины опорных векторов: расчет допустимой ошибки, функции ошибок, параметры C, полиномиальное и RBF-ядра.

Методы ансамбля: бэггинг, бустинг, AdaBoost, градиентный бустинг

Проект 2. Поиск доноров для вымышленной благотворительной организации под названием… CharityML.

Кластеризация: K-means, мини-проект системы рекомендаций фильмов

Иерархические кластеры и кластеры на основе плотности: одноканальные, среднеканальные, полноканальные, Ward, приложения HC, DBSCAN и приложения.

Смешанные модели Гаусса и проверка кластеризации: GMM в одном измерении, распределение Гаусса в 2D, максимизация ожидания, процесс кластерного анализа, индексы внешней проверки, скорректированный индекс Рэнда, коэффициент силуэта

Масштабирование функций: масштабирование мин./макс.

Анализ основных компонентов: размерность данных, измеримые и скрытые признаки, составные признаки, максимальная дисперсия, потеря информации и основные компоненты, PCA для преобразования признаков, PCA для распознавания лиц

Случайная проекция и ICA: анализ независимых компонентов, извлечение исходных сигналов из звуковых дорожек, приложения в ЭЭГ и финансах (анализ акций)

Проект 3. Группируйте клиентские сегменты, чтобы определить профиль розничных клиентов на основе их годовых расходов.

На данный момент я очень доволен как содержанием, так и качеством отзывов. Возможно, когда-нибудь я напишу об этом более подробный пост в блоге. А пока… перейдем к семестру 2 🎉, расширенному машинному обучению, с некоторыми интересными вещами, такими как сверточные нейронные сети и завершающим проектом.