Недавно я просмотрел прекрасную лекцию Эндрю Нг 2016 года Основные принципы применения глубокого обучения и сделал заметки. Я размещаю их как полезный ресурс для всех, кто хочет посмотреть видео.

https://www.youtube.com/watch?v=F1ka6a13S9I

Я разбил его на следующие разделы

  1. Сквозное DL для расширенного вывода
  2. Ковши ДЛ
  3. Смещение и дисперсия
  4. Рабочий процесс прикладного машинного обучения
  5. Новая эра машинного обучения
  6. Создайте единое хранилище данных
  7. Новый взгляд на раскол 70/30
  8. По сравнению с человеческим уровнем производительности
  9. Как вы определяете производительность на уровне человека?
  10. Как построить карьеру в области машинного обучения?
  11. ИИ — это новое электричество

Введение

  1. Сквозное DL — рабочий процесс
  2. Предвзятость и дисперсия изменились в эпоху глубокого обучения
  3. DL существуют уже несколько десятилетий, почему они хорошо работают сейчас?
  • Масштаб данных и вычислений
  • Две команды
  • Команды ИИ
  • Системная команда
  • Сядьте вместе
  • Трудно одному человеку быть достаточно опытным в нескольких областях

Сквозная DL для расширенного вывода

  • Из первых трех ведер ниже
  • Традиционные модели машинного обучения выводят действительные числа
  • Сквозное DL может отображать более сложные вещи, чем числа
  • Подписи к изображениям
  • Преобразование речи в текст
  • Машинный перевод
  • Синтезировать новые изображения (13:00)
  • Сквозное DL не является решением для всего.
  • End-to-end = иметь только DL между входом и выходом
  • Правила использования (13:35)
  • По-старому: аудио — — → фонемы → расшифровка
  • Новый способ DL: аудио — — — — — — — — —› стенограмма
  • Отличный пиар, но работает только несколько раз (15:31)
  • Ахиллесова пята — нужно много размеченных данных
  • Возможно, фонемы — всего лишь фантазия лингвистов (15:48)
  • Преимущество старой несквозной архитектуры в том, что она позволяет вручную добавлять больше информации в обработку (18:16)
  • Кроме того, для беспилотных автомобилей ни у кого нет достаточно данных (прямо сейчас), чтобы сделать сквозную работу) (20:42)
  • Распространенная проблема — после первого раунда разработки ML не работает так хорошо, что делать дальше?
  • Соберите больше данных
  • Тренируйтесь дольше
  • Другая архитектура (например, переход на NN)
  • Регуляризация
  • Модель большего размера
  • Больше графических процессоров
  • Мастерство инженера по машинному обучению — это умение принимать эти решения (22:33)

Группы DL

  1. Общие модели
  • Плотно связанные слои — FC
  • Модели последовательности — 1D (RNN, LSTM, GRU, внимание)
  • Модели изображений — 2D, 3D (сети Convo)
  • Другое — неконтролируемое, подкрепление
  1. Первые три корзины стимулируют рост рынка
  2. Но ведро «Другое» — это будущее ИИ.

Смещение и дисперсия — развитие

  1. Сценарий: создание системы записи речи на уровне человека
  • Измерить ошибку человеческого уровня — 1
  • Ошибка тренировочного набора — 5%
  • Набор для разработчиков — 6%
  1. Смещение = разница между уровнем человеческой ошибки и уровнем вашей системы.
  2. СОВЕТ. Для проблем со смещением попробуйте обучить более крупную модель (25:21)
  3. Дисперсия (переоснащение): для человека 1%, для обучения 2%, для разработчиков 6%
  4. СОВЕТ: для дисперсии попробуйте добавить регуляризацию, раннюю остановку, лучший вариант = больше данных
  5. И высокая предвзятость, и высокая дисперсия: если человек 1%, обучение 5%, разработка 10%
  6. «хреново для тебя» (прямая цитата 26:30)

Рабочий процесс прикладного машинного обучения

  1. Ваша ошибка обучения высока
  • да
  • Модель большего размера
  • Тренируйтесь дольше
  • Новая архитектура
  • Повторяйте до тех пор, пока не станете хорошо выполнять тренировочный набор.
  1. Ошибка разработчика высока?
  • да
  • Добавить данные
  • Регуляризация
  • Новая архитектура
  • Повторяйте до тех пор, пока не станете хорошо выполнять тренировочный набор.
  1. Сделанный

Новая эра машинного обучения

  1. Теперь мы знаем, с какой бы проблемой вы ни столкнулись (высокая предвзятость или высокая дисперсия), у вас есть по крайней мере одно действие, которое вы можете предпринять, чтобы исправить ее.
  2. Больше не компромисс между предвзятостью и дисперсией (29:47)
  3. «Глупая» формула «большая модель/больше данных» легко реализуема даже для неспециалистов, и ее достаточно для решения многих задач (31:09).
  4. Больше данных привело к интересным инвестициям
  • Синтез данных — Растущая область
  • Примеры-
  • OCR в Baidu
  • Взять случайное изображение
  • Случайное слово
  • Введите случайное слово в Microsoft Word
  • Использовать случайный шрифт
  • Вы только что создали обучающие данные для OC
  • По-прежнему требуется некоторое вмешательство человека, но большой прогресс
  • Распознавание речи
  • Возьмите чистый звук
  • Добавьте случайный шум к фону для получения дополнительных данных
  • Например, добавить автомобильный шум
  • Работает замечательно хорошо
  • НЛП
  • Возьмите неграмматические предложения и автокоррекция
  • Легко создавать неграмматические предложения программно
  • Видеоигры в РЛ
  1. Синтез данных имеет много ограничений (36:24)
  • Почему бы не взять автомобили из Grand Theft Auto и не использовать их в качестве обучающих данных для самоуправляемых автомобилей?
  • 20 автомобилей в видеоигре достаточно, чтобы произвести на игрока «реалистичное» впечатление
  • Но 20 автомобилей — это очень скудный набор данных для беспилотных автомобилей.

Создайте единое хранилище данных

  1. Сотрудники могут владеть «своими» данными
  2. Baidu — это не ваши данные, это данные компании
  3. Права доступа могут быть другой проблемой
  4. Но складировать все вместе
  5. Каггл

Возвращение к разделению 70/30

  1. В академических кругах обычно тест / поезд происходит из одного и того же дистрибутива.
  2. Но чаще всего в промышленности для тестирования и обучения используются разные дистрибутивы.
  • Например, запись речи на Baid
  • Зеркало заднего вида с голосовым управлением (в Китае)
  • 50 000 часов обычных речевых данных
  • Данные не от взаимодействия с зеркалом заднего вида, хотя
  • Соберите еще 10 часов сценария с зеркалом заднего вида.
  • Что вы делаете с первоначальными 50 000 часов не совсем правильных данных?
  • Старый метод заключался в построении разных моделей для каждого сценария.
  • Новая эра, одна модель для всех данных
  • Плохая идея, разделить 50 000 на обучение/разработку, использовать 10 000 в качестве теста. НЕ ДЕЛАЙТЕ ЭТОГО.
  • СОВЕТ: убедитесь, что dev и test находятся в одном дистрибутиве (повышает эффективность)
  • Хорошая идея: сделать 50 000 train, разделить 10 000 на dev/test
  • Набор разработчиков = спецификация проблемы
  • Я: «Набор разработчиков = проблема, которую вы пытаетесь решить»
  • Кроме того, выделите всего 20 часов из 50 000, чтобы создать крошечный набор «поезд разработчиков».
  • это тот же дистрибутив, что и поезд
  1. Несоответствие набора поездов и разработчиков — проблема, над которой академические круги мало работают
  • некоторые работы по адаптации домена, но немного (44:53)
  1. Исправление новой архитектуры = «Радуйся, Мария» (48:58)
  2. Требуется много времени, чтобы действительно понять предвзятость / дисперсию
  • Люди, которые действительно глубоко понимают предвзятость/дисперсию, могут быстро добиться прогресса в машинном обучении (50:33)

Общая тема – сравнение результатов на уровне человека

  1. Обычно для достижения производительности человеческого уровня, а затем выравнивания
  2. Почему?
  • Аудитория: Ярлыки созданы людьми
  • Аудитория: Исследователи довольны результатами (гипотеза лени)
  • Эндрю: теоретические пределы (также известные как оптимальная частота ошибок, коэффициент Байеса)
  • Некоторый звук настолько плохой, что его невозможно расшифровать (телефонный звонок с рок-концерта)
  • Некоторые изображения настолько размыты, что их невозможно интерпретировать
  • Люди действительно хороши в некоторых вещах, поэтому, как только вы превзойдете человеческую точность, останется не так много возможностей для улучшения (54:38)
  1. Хотя хуже, чем люди, все еще есть способы улучшить
  • Получайте ярлыки от людей
  • Анализ ошибок
  • Оцените эффекты систематической ошибки/дисперсии
  1. Для задач, с которыми люди плохо справляются (скажем, 30% ошибок), действительно трудно найти руководство по улучшению

Как вы определяете эффективность человеческого уровня?

  1. Тест: какое определение самое полезное? (101:000
  • Пример: чтение медицинских изображений
  1. Типичная ошибка не врача — 3%
  2. Типичный врач — 1%
  3. Врач-эксперт — 0,7%
  4. Команда врачей-экспертов — 0,5%
  • Ответ: Команда опытных врачей лучше всего подходит, потому что в идеале вы используете человеческий фактор для оценки оптимальной частоты ошибок.

Что может делать ИИ? (106:30)

  1. Все, что обычный человек может сделать менее чем за одну секунду.
  • Например, задачи на восприятие
  • Аудитория: если человек может сделать это менее чем за секунду, можно получить много данных

Как построить карьеру в сфере машинного обучения (111:00)

  1. Эндрю говорит, что у него нет отличного ответа (я: но у него есть хороший)
  • Пройти курс машинного обучения
  • Посещать школу DL
  • Работайте над проектом самостоятельно (Kaggle)
  • Имитировать процесс аспиранта
  • Читать много статей (20+)
  • Повторить результаты
  • Грязная работа
  • Загрузка/очистка данных
  • Повторный запуск чьего-то кода
  • Не делайте только грязную работу
  • Процесс PhD + Грязная работа = надежный
  • Держите его в течение года
  • Компетенция

Искусственный интеллект — это новое электричество (118:00)

  1. Преобразование отрасли за отраслью
  2. Заходите на первый этаж
  3. ПРИМЕЧАНИЕ: это название его последующего выступления, в конце которого есть ссылка на видео.