Amazon SageMaker

Экзамен сдан 6 марта 2021 года!

Я написал этот пост во время подготовки к экзамену AWS Certified Machine Learning — Specialty. Это краткое изложение того, что я знаю об этой технологии. Некоторые заметки могут показаться вам очень тривиальными — моя цель состояла в том, чтобы убедиться, что я не делаю ошибок и запоминаю каждый факт.

Курсы, которые я прошел

«Udemy Сертифицированная специальность AWS по машинному обучению 2021 — Практика! курс". Лучше сначала пройти курс Udemy. Whizlabs раскрывает подробности. Возможно, вам это даже покажется трудным, тогда как Стефан и Фрэнк значительно облегчают понимание концепций, лежащих в основе терминологии.
Специализированный курс WhizlabsAWS по машинному обучению
Машинное обучение Эндрю Нг
Моя бакалаврская работа была посвящена распознаванию символов с использованием CNN, а также сравнивала результаты с Tesseract.
Специализация глубокого обучения (также Эндрю Нг)
Видео AWS на YouTube и некоторые из конференции reInvent 2021
Курс подготовки к экзамену AWS

Викторины и дампы вопросов и прочее

Лучший дамп вопросов, который я нашел (по темам экзамена, на случай, если URL-адрес умрет)
Практические экзамены Whizlabs
Вопросы к экзамену Testprep
Специализация по машинному обучению, сертифицированная AWS — примеры вопросов
Эндрю Нг и его задания по программированию на его курсах
Темы Reddit (проверьте, как к этому готовятся другие)

Связанные с данными

Методы масштабирования и нормализации данных

Стандартизация среднего/дисперсии
MinMax масштабирование
Масштабирование Maxabs
Надежное масштабирование
Нормализатор (масштабирует построчно)
Стандартный масштабатор (выполняет масштабирование и сдвиг/центрирование по столбцам)
One-hot-encoding (сделайте это для категориальных данных)

EC2 (эластичные облачные вычисления)

Это среда, в которой работают ноутбуки SageMaker Jupyter.

S3 (единая служба хранения)

Для SageMaker, если параметр типа распределения:

ShardedByS3Key (реплицирует подмножество набора данных)
FullReplication (реплицирует весь набор данных)

Конфигурация жизненного цикла

Действия перехода — укажите, когда объекты переходят в другой класс хранения. Например, вы можете перевести объекты в класс хранения S3 Standard-IA через 30 дней после их создания или заархивировать объекты в класс хранения S3 Glacier через год после их создания.
Действия по истечении срока действия — укажите, когда истекает срок действия объектов. Amazon S3 удаляет просроченные объекты от вашего имени.

Параметры хранения данных

S3 Standard
универсальное хранилище часто используемых данных
S3 Intelligent-Tiering
данные с неизвестными или меняющимися шаблонами доступа
S3 Standard-Infrequent Access (S3 Standard-IA) и S3 One Zone-Infrequent Access (S3 One Zone-IA)
живут долго, но реже доступ к данным
S3 Glacierи S3 Glacier Deep Archive
долгосрочный архив и цифровое хранение.
S3 Outposts
Если у вас есть требования к размещению данных, которые не может удовлетворить существующий регион AWS, вы можете использовать

Поток данных Kinesis

API PutRecord

Ввод

один фрагмент может принять ‹ 1 МБ

Вывод

Дополнительно

в реальном времени
PutRecord (помещает одну запись в Kinesis Data Stream)
должен использовать Kinesis Consumer Library для получения данных и последующей записи данных в S3.

Видеопотоки Kinesis

обработка видео в реальном времени

Kinesis Data Firehose

Бессерверное решение

API PutRecord

Ввод

json

запись должна быть ‹ 1000 КБ

входной буфер может быть 1–128 МБ

буферный интервал 60–900 секунд

тайм-аут лямбда по умолчанию составляет 3 секунды

Вывод

выводит Parquet или ORC на лету

Дополнительно

не в реальном времени или близко к реальному времени
может выводить формат файла паркета
может писать напрямую в S3

статус преобразованных данных:

OK
Отброшено (намеренно отклонено преобразованием)
ProcessingFailed (не удалось преобразовать данные)

Библиотека продюсеров Kinesis

Обеспечивает встроенные преимущества производительности и очень прост в использовании.

например получение данных о кликах должно быть очень простым

Аналитика данных Kinesis

Преобразование и анализ потоковых данных в реальном времени с помощью Apache Flink (обработка данных для потоков). Использует SQL-запросы.

Может обнаруживать плотные области в данных с помощью горячих точек.

Может обнаруживать аномалии с помощью Random Cut Forest.

Конвейер данных AWS

Управляемая служба ETL (извлечение, преобразование, загрузка)

Синхронизация данных AWS

получать данные с диска NFS

AWS DMS (служба миграции баз данных)

для пакетной обработки
чтение из реляционных и нереляционных баз данных

Клей AWS

использует сканеры для выполнения заданий ETL:

структурированные данные
неструктурированные данные
имеет функцию FindMatches Transform (файл маркировки должен быть в кодировке UTF-8 с меткой порядка байтов)
имеет модуль под названием «Встроенные преобразования».
имеет задания Spark ML (задания, работающие с паркетными данными)
не используйте, если ETL не упоминается
пакетная обработка

Какие инструменты можно использовать в AWS Glue при использовании Spark

данные паркета
Контейнеры Spark MLeap
Spark MLib для создания компонентов машинного обучения для преобразования данных (токенизация, кодирование, нормализация и т. д.)
Контейнер обслуживания SparkML позволяет развернуть конвейер Apache Spark ML в SageMaker.

Амазонка Афина

БессерверныйETL
построен на Престо
запускает стандартный SQL

Амазонка Аврора

Реляционная база данных, совместимая с MySQL и PostgreSQL, созданная для облака. Производительность и доступность коммерческих баз данных за 1/10 стоимости.

Требуется подготовка!

Детектор мошенничества Amazon

ONLINE_FRAUD_INSIGHTS
принимает только CSV

Сбой, если:

rows_count › 10k
мошенничество_rows_count ‹ 400

Amazon MSK (управляемая потоковая передача для Apache Kafka)

Kafka — это система обмена сообщениями с публикацией/подпиской.

Амазонка Красное смещение

хранилище данных
если у компании есть хранилище данных Redshift и она хочет перенести часть своих данных в S3, она может использовать Redshift Spectrum для запроса этих данных с помощью Redshift.

Amazon DynamoDB

База данных NoSQL "ключ-значение"

Формирование озера AWS

озеро данных
построен на основе AWS Glue (например, имеет сканеры)
использует S3 в качестве хранилища данных

Пошаговые функции Amazon

может выполнять много ETL с пакетными данными

Приведенную ниже диаграмму также можно описать с помощью ASL (государственный язык Amazon):

Amazon FSx для блеска

служба файловой системы — ускоряет обучающие задания (ускоряет поток данных между S3 и Sagemaker. Предотвращает загрузку одного и того же набора данных три раза (пример ниже)

Amazon EFS (эластичная файловая система)

более быстрое время обучения благодаря прямому извлечению данных из S3 в обучающие задания. Нет необходимости отдельно извлекать данные из S3 для учебного задания и Блокнота.

Тома Amazon EBS (Elastic Block Store)

Простое в использовании, высокопроизводительное блочное хранилище любого масштаба. Предназначен для использования с EC2

Амазонка

Только для структурированных данных на S3 или базе данных

Используется для визуализации данных. Некоторые визуализации:

горячие точки
Чистый рейтинг промоутера

KPI (ключевой показатель эффективности)
Оценка прибыльности клиента
Гистограммы
Круговые диаграммы

Амазонка Мудрец

SageMaker — это фреймворк от Amazon, упрощающий внедрение и развертывание алгоритмов ИИ.

Не удается прочитать из Elasticache, должен быть S3.
Модель автономного тестирования - › альфа-конечные точки
Его ноутбуки работают на инстансах EC2.
Используйте Консоль управления SageMaker, чтобы указать показатели, которые вы хотите отслеживать.
Вы также можете использовать модуль sagemaker.analytics и использовать TraningJobAnalytics.
проверка: cross_entropy
Вы можете изменить конвейер вывода при его развертывании с помощью API UpdateEndpoint. Хотя вы потеряете AutoScaling
нет ограничений на размер вводимых данных

Линейное обучение SageMaker

классификация
регрессия (регрессия предполагает нормальное распределение данных)

Обучение

записьIO-protobuf float32

Тестирование

Гиперпараметры

Имя задания настройки гиперпараметров — CreateHyperparameterTuningJob.

Чтобы взаимодействовать с заданиями настройки гиперпараметров SageMaker, вызовите HyperparameterTuner()вызов API

РЕГРЕССИЯ
Predictor_type=’regressor’
среднеквадратическая ошибка, потеря перекрестной энтропии, абсолютная ошибка.

КЛАССИФИКАЦИЯ
Predictor_type=’binary_classifier’
Predictor_type=’multiclass_classifier’
Показатель F1, точность, полнота или достоверность.

SageMaker kMeans

неконтролируемый
классификация

Обучение

Тестирование

показатели тестирования:

test:msd (среднеквадратичное расстояние)
test:ssd (сумма квадратов расстояний)

Гиперпараметры

Имя задания настройки гиперпараметров — CreateHyperparameterTuningJob.

k-ближайшие соседи

классификация

XGBoost

классификация
регрессия

цель задана как multi:softprob

привязывается к памяти, поэтому больше выигрывает от экземпляров M, чем от экземпляров C

Конечные точки вывода могут использовать только (без application/sth):

текст/csv
текст/libsvm

Параметры XGBoost

SEAGuL аббревиатура ;)

subsample [по умолчанию=1]
Соотношение подвыборок обучающих экземпляров. Установка его на 0,5 означает, что XGBoost будет случайным образом выбирать половину обучающих данных перед выращиванием деревьев. и это предотвратит переоснащение. Подвыборка будет происходить один раз в каждой итерации повышения.
диапазон: (0,1]
eta [по умолчанию = 0,3, псевдоним: learning_rate]
Уменьшение размера шага используется при обновлении для предотвращения переобучения. После каждого шага повышения мы можем напрямую получать веса новых функций, и eta уменьшает веса признаков, чтобы сделать процесс повышения более консервативным.
диапазон: [0,1]
alpha [по умолчанию=0, псевдоним: reg_alpha]
Член регуляризации L1 для весов. Увеличение этого значения сделает модель более консервативной.
gamma [по умолчанию=0, псевдоним: min_split_loss]
Минимальное уменьшение потерь, необходимое для создания дополнительного раздела на листовом узле дерева. Чем больше gamma, тем более консервативным будет алгоритм.
диапазон: [0,∞]
lambda [по умолчанию=1, псевдоним: reg_lambda]
Термин регуляризации L2 для весов. Увеличение этого значения сделает модель более консервативной.

Настройка гиперпараметров XGBoost

Случайный поиск
будет работать, но может длиться очень долго
Байесовская оптимизация
также оптимизирует, но работает короче

А как насчет поиска по сетке?

Поиск по сетке похож на случайный поиск тем, что он выбирает конфигурации гиперпараметров вслепую. Но обычно он менее эффективен, потому что приводит к почти дублированию обучающих заданий, если некоторые из гиперпараметров не сильно влияют на результаты.

Показатели:

MSE (среднеквадратичная ошибка) — хорошо подходит для измерения проблем регрессии, но плохо справляется с выбросами.
MAE (средняя абсолютная ошибка) — хороший показатель регрессии, на который могут существенно влиять выбросы.

Производственные варианты SageMaker

Что-то вроде теневого тестирования в автомобилях Tesla (у вас одновременно работают два автопилота). Веса решают, какой алгоритм важнее. Если вы хотите постепенно внедрять новую модель:

Создайте конфигурацию конечной точки с производственными вариантами для двух моделей с соотношением веса 0:1.
Периодически обновляйте веса

Оценщики SageMaker

Высокоуровневый интерфейс для обучения мудрецов

Обработка SageMaker

Упрощает управление инфраструктурой в SageMaker. Если вам нужно быстрое решение для машинного обучения, лучше используйте SageMaker Processing, чем писать код вручную с помощью SageMaker Studio.

Amazon Нептун ML

Новинки, 2021. Работает на GNN (графовые нейронные сети). Оптимизированное машинное обучение для графиков. Например. xgboost должен работать с табличными данными. Использует библиотеку глубоких графов.

t-SNE (встраивание t-распределенных стохастических соседей)

методика, позволяющая уменьшить размерность

PCA (анализ основных компонентов)

уменьшение размерности

работает в 2 режимах:

регулярный -> разреженные наборы данных, умеренное количество наблюдений и признаков
рандомизированный -› большое количество наблюдений и признаков

Ввод поезда:

приложение/recordIO-обернутый protobuf
текст/csv

тестовый ввод:

текст/csv
приложение/json
приложение /x-recordio-protobuf

формат возврата:

приложение/json
application/x-recordio-protobuf (вектор проекций)

Режимы:

Файловый режим
Режим трубы

Студия SageMaker — интегрированная среда разработки

позволяет синхронизировать работу специалистов по данным

SageMaker Случайный Вырез Леса

Не поддерживает GPU!

Учебный ввод:

текст/csv
приложение /x-recordio-protobuf

Пакетное преобразование SageMaker

Может выполнять предварительную и последующую обработку (например, удаление функции идентификатора и последующее присоединение идентификатора к данным). Используется для обработки очень больших наборов данных. Это только функция SageMaker

не для приложений реального времени
для большого количества данных

Эксперименты с SageMaker

Сравнивает модели ML.

Отладчик SageMaker

Инструмент, облегчающий исследователю данных отслеживание производительности модели и возможных проблем. Сохраняет параметры модели во время обучения, чтобы их можно было визуализировать.

Наземная правда SageMaker

Объединение аннотаций отправит изображение паре рабочих, так что всякий раз, когда один из них неправильно помечает изображение, другие не могут этого сделать, и благодаря этому мы можем быть уверены, что данные будут правильно помечены.

SageMaker Автопилот

Автомл
принимает только CSV.

SageMaker Neo + AWS IoT Greengrass

Neo используется для компиляции модели для устройства IoT, GreenGrass собирает данные с этих устройств, а устройство IoT может использовать AWS IoT Core для получения выводов из моделей (SageMaker развернут на Edge).

Алгоритмы, разделенные по типу доступного ускорения

Экземпляры типа машины

СДЕЛАТЬ:

EC2 P3 и P3DN

EC2 G4 и EC2 CS

ПЛИС

AMI

Вывод эластичности

Инференция

Высокопроизводительный чип на базе глубокого обучения

Снежный ком AWS

локальное хранилище и крупномасштабная передача данных
большие процессоры v40

Снегоход AWS

Размер контейнера для физической передачи данных с помощью полуприцепа.

Алгоритмы обработки текста

TF-IDF (Частота текста, обратная частоте документа) -› определяет, насколько важно слово в документе, присваивая веса

Пожалуйста, не сидите здесь
Пожалуйста, не курите здесь

размер матрицы tf-idf (униграммы и биграммы) = (2, 6 + 6) = (2,12)

Еще примеры

Sequence-to-sequence –> машинный перевод, суммирование текста (требуется токенизация и ввод данных в RecordIO-protobuf с целочисленными токенами)
мешок слов -› создает токены из слов на входе
OSB (ортогональная пространственная биграмма) -› создает группу слов
n-gram – используется для поиска фраз из нескольких слов в тексте.
LDA (скрытое распределение Дирихле) — › моделирование тем, неконтролируемое
Нейронный режим темыl –> моделирование темы, неконтролируемое

Прогнозирование DeepAR

Прогнозирование скалярных (1D) временных рядов с использованием RNN.

Машины факторизации

неконтролируемый, хорошо работает на разреженных данных, система рекомендаций

Тип входных данных

записьIO-protobuf float32

Тип логических данных

приложение/json
приложение /x-recordio-protobuf

IP-аналитика

без присмотра, использует нейронную сеть, обнаруживает странные аномалии сетевого трафика, «случайные подозрительные вещи»

Дежурная служба

Выявляет аномалии на сайте (аномалии поведения пользователей)

Обучение с подкреплением

Вы можете запустить его на нескольких ядрах/несколько машинах.

Автоматическая настройка модели

учится на ходу

Эластичный MapReduce (EMR)

инструмент для обработки и анализа больших данных
подключен к Spark (spark умеет выводить паркетный файл)
Потоковая передача в реальном времени
HPC (высокопроизводительные вычисления)
требует управления (предоставление)

Амазонка понять

НЛП
текстовая аналитика
Амазонка Понимание Медицины
чувства
классификация документов
может понимать многие языки
Личная информация (PII) -> будьте осторожны с ней (Amazon Comprehend может ее обнаружить)

Амазонка Понимание Медицины

Амазон Переводчик

json, который переводит (даже если для исходного языка установлено значение auto) на нужный язык

Амазонка Расшифровка

преобразование речи в текст
идентификация канала
пользовательские словари
потоковый клиент — это потоковый клиент HTTP/2.

Амазонка Полли

текст в речь
Полли — стереотипное имя попугая.
если у вас есть аббревиатуры в тексте (W3C -> World Wide Web Consortium), вы можете создать для них SSML (например, ‹sub alias="World Wide Web Consortium"›W3C‹/sub), но это относится только к ДОКУМЕНТУ. Вот почему есть лучший вариант –создать собственный словарь.

Прогноз Амазонки

Amazon Forecast Prophet
хорошо подходит для временных рядов с сильными сезонными эффектами
Amazon Forecast DeepAR+
большие наборы данных
могут работать со связанными временными рядами (множество коррелированных наборов данных временных рядов)
Amazon Forecast ARIMA
простые наборы данных (менее 100 временных рядов)
Amazon Forecast CNN-QR
Одномерный временной ряд, модель Seq2Seq
Amazon Forecast ETS(Экспоненциальное сглаживание)
хорошо для сезонности и других предварительных предположений о данных
Amazon Forecast NTPS (непараметрический временной ряд)
хорошо подходит для разреженных временных рядов.

Амазонка Кендра

текст, извлеченный из отдельного документа, не может превышать 5 МБ
поддерживает HTML, PowerPoint, Word, PDF, обычный текст

Амазонка Лекс

движок чат-бота
высказывание -> намерение -> лямбда -> слот (дополнительная информация)

Признание Амазонки

компьютерное зрение
распознавание лиц
может сочетаться с дополненным ИИ (прогнозы Rekognition будут проверяться людьми)
Распознавание изображения
Видео о реокгниции

Амазон Когнито

для авторизации и аутентификации пользователей

Амазон Коннект

Простой в использовании многоканальный облачный контакт-центр

Амазонка персонализировать

(рекомендательная система) -> тип PaaS

система персонализации в реальном времени

Амазонский текст (OCR)

отправить изображение/pdf на amazon и получить текст с оценкой достоверности

Амазонка шумерская

используется с дополненной реальностью

Ядро Интернета вещей

используется для сбора данных с устройств на sagemaker и между самими устройствами (взаимодействие)

Интернет вещей Гринграсс

перемещает AWS в Edge для устройств IoT, позволяя им подключаться к конечным точкам логического вывода.

Аналитика Интернета вещей

используется для сбора данных с устройств IoT и может дополнять эти данные внешними

НЛП

Методы НЛП (в порядке введения моделей)

Яркий текст

Высокооптимизированный Word2Vec

анализ настроений
признание объекта

Word2Vec (особый случай для Object2Vec)

векторы слов = вложения слов
подобное значение = похожие векторы (при использовании Word2Vec)
Object2Vect способен создавать вложения для произвольного объекта, такого как твиты.

ПЕРЧАТКА

Глобальные векторы для представления слов

Трансформер

ЭЛМО

Встраивание из языковых моделей использует LSTM

БЕРТ PyTorch

Представления двунаправленного энкодера от трансформаторов

Использовалась маскировка слов (точно так же, как функция отсева в НЛП) во время предварительной тренировки. Он делает это на 15% данных.

Позволяет передавать обучение. Сначала изучите Википедию или корпус книг, а затем тренируйтесь для конкретных проблем предметной области.

Советы по НЛП от амазонок

в НЛП правописание имеет относительно меньшее значение для важности слова
в НЛП удалить стоп-слова (например, не, ни, ни)
токенизация слов для НЛП

Дополнительная информация о сервисах AWS

AWS DeepRacer (гоночный автомобиль в масштабе 1/18 на базе обучения с подкреплением)
DeepLens (видеокамера с поддержкой глубокого обучения)
CloudTrail предназначен для прослушивания (например, как часто развертывается модель).
CloudWatch отслеживает и выдает сигналы тревоги (например, отслеживает ЦП/ГП)
когда модель дает сбой, вы также можете вызвать DescribeJob API, чтобы проверить параметр FailureReason.

AWS KMS (служба управления ключами)
SSE — шифрование на стороне сервера
CSE — шифрование на стороне клиента
обучение модели происходит внутри VPC
Стратегия SimpleImputer по умолчанию = среднее
Максимальный размер пакета развертывания лямбда-функции составляет 50 МБ.
параметр максимальной памяти лямбда = 3 МБ
лямбда-схему можно взять из репозитория бессерверных приложений AWS или репозитория AWS Lambda.
Запись с лямбда-преобразованием должна содержать идентификатор записи, результат и данные.
Семантическая сегментация используется для компьютерного зрения, а не НЛП
онлайн-обучение -› обучение на ходу
добавочное обучение -› если у вас есть модель, обученная для конкретной работы, и вы будете обучать ее снова, используя новые данные
перенос обучения -> используйте предварительно обученную модель (например, ResNet, YoloV3) и переобучайтесь для ваших конкретных данных
внесистемное обучение — используется для обучения огромных наборов данных, которые невозможно загрузить на один сервер, для обучения используются подмножества данных
ReLU -> выпрямленный линейный блок
Совместная фильтрация — Amazon использовала это для создания системы рекомендаций «Пользователи, которые купили это, также купили это».
RMSE — хорошая оценочная метрика для регрессии при решении непрерывной задачи.
ROC является хорошей оценочной метрикой для задач регрессии при решении двоичной переменной.
Шлюзы NAT создаются в общедоступных подсетях. Когда вы слышите о шифровании и сокрытии обслуживания SageMaker, всегда помните слово «конечная точка интерфейса VPC».
Служба очереди сообщений SQS (Simple Queue Service). Вам нужно бото для этого
Система уведомлений SNS (Simple Notification Service) — почта, SMS или push-уведомления
автоматическая балансировка нагрузки также стоит денег на AWS
SGD (Stochastic Gradient Descent) fails -› RMSProp, Adam или Adagrad, Adadelta, NAG или Momentum
Градиентный спуск сходится быстрее после нормализации

Коэффициенты корреляции

Коэффициент корреляции — это статистическая мера силы взаимосвязи между относительными движениями двух переменных. Отсутствие корреляции означает отрицательную корреляцию

Ковариационный коэффициент корреляции

Ковариация используется, когда у вас есть отношение Гаусса между вашими переменными.

Коэффициент корреляции Пирсона

Также используется, когда у вас отношение Гаусса.
neg. корреляция ‹ -0,5 ‹ неопределенная корреляция ‹ 0,5 ‹ положительная. корреляция

Ранговые корреляции

Коэффициент корреляции Спирмена
Также используется, когда у вас есть негауссовские отношения.

Коэффициент полихлорной корреляции (или четыреххлорный)

Этот коэффициент используется для понимания взаимосвязи переменных, собранных с помощью опросов, таких как личностные тесты и опросы, в которых используются рейтинговые шкалы.

Другие методы машинного обучения и примечания

Наивный Байес

Многочленный наивный байесовский метод для поиска слов в документе будет подсчитывать частоту заданного слова/наблюдения.
Наивный байесовский метод Бернулли для задач классификации документов где вы хотите знать, появляется ли слово или нет.
Наивный байесовский алгоритм Гаусса работает с непрерывными значениями в ваших наблюдениях, а не с дискретными значениями.

Техники машинного обучения

Регрессия гребня
Уменьшает коэффициенты в модели, но не полностью до 0.
Регрессия Лассо
Может уменьшить некоторые из коэффициенты до 0.

Методы вменения:

глубокое обучение
преобразование Йео-Джонсона (используется для получения более гауссовского распределения ваших данных)
вменение среднего значения (предсказывает значения измерения, но является довольно наивным подходом)
многомерное вменение (используется для прогнозирования отсутствующих значений в данных, лучше, чем вменение среднего)

Техники использования нескольких графических процессоров
-Горовод (простой, использовать только для обучения, удалить при развертывании модели вывода)
- PySpark (больше работы, чем Хоровод)
- с помощью DeepAr (больше работы, чем Horovod)

Визуализация данных

S3 -> Формирование озера -> QuickSight
Elasticsearch -> Кибана

!!!!!!! Типы сюжетов !!!!!!!!

график рассеяния

пузырьковая диаграмма (можно использовать для сравнения 3 функций)

парный сюжет

роевой участок

кошачий сюжет

ковариационная матрица

корреляционная матрица

матрица путаницы

часто используется для описания эффективности классификации

матрица энтропии

гистограмма (1D)

линейный график (для трендов, данных временных рядов)

остаточный график (хорошо для принятия решения о том, хорошо ли регрессия соответствует данным)

радарная диаграмма (удобна для простого рисования нескольких переменных)

гистограмма

Тепловая карта

идите туда, чтобы узнать больше
примеры морского происхождения

Сетевые протоколы транспортного уровня

HTTP
HTTP/2 (например, тот, который используется Amazon Transcribe), используемый для потоковой передачи данных.
HTTP/3 (в настоящее время разрабатывается)

ARIMA -> Авторегрессионное интегрированное скользящее среднее

Передискретизация (как обрабатывать несбалансированные наборы данных)

Создание недостающих данных (например, обнаружение мошенничества, аномалии) там, где очень мало положительных данных, но нам нужно их обнаружить. Недостаточная выборка — это метод, при котором мы удаляем уникальные данные (например, недостаточная выборка kNN).

SMOTE oversampling
Synthetic Minority Oversampling Technique, неплохой, но не такой потрясающий

Случайная передискретизация
Наивный способ добиться этого

Перевыборка GAN (Generative Adversarial Networks)
Создает новые данные, что очень хорошо. Благодаря этому уникальных наблюдений стало больше.

В то время как подходы SMOTE основаны на локальной информации, методы GAN изучают общее распределение классов.

Измерение качества ИИ

ROC (рабочая характеристика приемника)

Кривая PR

Точность

Вспомнить

Базы данных

Относительный

SQL
MySQL

Нереляционный

Хадуп
Искра
монго-дб
NoSQL

вопросы и ответы

Пример экзамена от AWS отмечает:

A
C
должно быть A
B
D
должно быть B
D
D
должно быть B
C
B (может быть, D, но зачем делать это для 5%, когда нужно вставить несколько столбцов)
но это D, лол, это действительно того стоило. Может быть, 5% действительно много.
A
должно быть B
D

Оценка теста = 60%

Если у вас есть разные локальные минимумы (функция обучения колеблется вокруг разных значений во время разных пакетных запусков), то было бы лучше:

уменьшить размер пакета (не будет достигать локальных минимумов)
уменьшить скорость обучения (не будет превышать глобальные минимумы)

маленькая мини-партия -› предотвращает остановку на локальных минимумах

большая мини-партия -> хорошо для вычислительно дорогих

ансамбль моделей — комбинация моделей машинного обучения, работающих для получения одного вывода (например, XGBoost для неструктурированных данных и CNN для изображений)

Нейронные сети широко используются в машинном обучении благодаря:

Много данных генерируется через социальные сети, капчу и т. д.
появились эффективные алгоритмы (softmax и т.д.)
более дешевые графические процессоры