Шпаргалки по темам собеседований по машинному обучению
Обновления:
25 декабря 2020 г .: добавлены методы ансамбля
Загрузите обновленную версию шпаргалок с сайта http://cheatsheets.aqeel-anwar.com/
Пару лет назад я начал подавать заявки на стажировку в области машинного обучения и проектирования систем машинного обучения. Тогда я несколько лет изучал и активно исследовал в области машинного обучения. Я был знаком с большинством основных тем. Но когда я начал интервью, я понял, что, хотя у меня было общее понимание тем, мне нужно было быстро пройти, прежде чем я смогу ответить идеально.
Поэтому я решил обновить свои концепции. Я понял, что перед каждым собеседованием мне нужно заново проходить темы. Итак, я создал свои рукописные заметки. Полистать их было намного проще, чем пролистывать слайды и главы книг. Это дало мне быстрый толчок к моему пониманию за короткое время. Я решил преобразовать свои рукописные заметки в компактные шпаргалки, которые могут пригодиться для собеседований по машинному обучению и повседневной жизни исследователей данных в целом.
Остальная часть статьи основана на этих шпаргалках. По каждой теме я даю
- Обзор в виде шпаргалки
- Примеры вопросов на собеседовании
- Предлагаемые статьи для подробного понимания темы.
Примечание 1. Эти шпаргалки предназначены для обновления концепций и не предназначены для углубленного понимания тем для новичков.
Примечание 2: статья постоянно пополняется шпаргалками.
Источник: Все эти шпаргалки (и другие) можно загрузить в формате pdf с сайта www.cheatsheets.aqeel-anwar.com.
Предвзятость и дисперсия в моделях машинного обучения
а) Обзор:
б) Примеры вопросов:
- Что такое смещение в моделях машинного обучения?
- Что такое дисперсия в моделях машинного обучения?
- В чем разница между смещением и дисперсией?
- Каковы недостатки модели машинного обучения с высоким смещением и высокой дисперсией?
- Как выбрать модель (высокая систематическая ошибка или высокая дисперсия) на основе размера обучающих данных?
в) Подробная статья:
Несбалансированные данные в машинном обучении
а) Обзор:
б) Примеры вопросов:
- Что такое несбалансированные данные в классификации?
- Является ли точность хорошим показателем производительности? Когда не удается уловить производительность системы машинного обучения?
- Что такое точность и отзыв? Приведите пример
- Как решить проблему несбалансированных данных?
в) Подробные статьи:
Теорема Байеса
а) Обзор:
б) Примеры вопросов:
- Что такое теорема Байеса?
- Игрушечный пример реализации теоремы Байеса
- В чем разница между MLE и MAP?
- Когда MAP и MLE равны?
в) Подробные статьи:
Анализ главных компонентов и уменьшение размерности
а) Обзор:
б) Примеры вопросов:
- Что такое анализ главных компонентов?
- Как мы можем использовать PCA для уменьшения размеров?
- Что означают собственные значения в контексте PCA? (Чем больше величина собственного значения, тем больше информации сохраняется, если мы сохраняем соответствующий собственный вектор в качестве вектора признаков для наших данных)
в) Подробные статьи:
Регресс в машинном обучении
а) Обзор:
б) Примеры вопросов:
- Что такое регрессия в машинном обучении?
- Как мы можем ввести регуляризацию в регрессию? (ЛАССО и Ридж)
- Какое влияние на веса модели оказывает регрессия LASSO и Ridge? (Ridge пытается уменьшить размер изученных весов, тогда как LASSO пытается обнулить их, создавая более разреженный набор весов)
- Когда предсказание байесовской линейной регрессии приближается к предсказанию линейной регрессии? (Когда количество точек данных достаточно велико)
- Логистическая регрессия - неправильное название? (Да, потому что это не регрессия, а классификация на основе регрессии)
в) Подробные статьи:
Регуляризация в машинном обучении
а) Обзор:
б) Примеры вопросов:
- Что такое регуляризация в ML?
- Как мы можем решить проблему чрезмерной подгонки?
- Что такое K-кратная перекрестная проверка?
- В чем разница между регуляризацией L1 и L2?
- Почему мы используем отсев?
в) Подробные статьи:
Основы сверточной нейронной сети
а) Обзор:
б) Примеры вопросов:
- Что такое CNN?
- Объясните разницу между сверточным слоем и транспонированным сверточным слоем.
- Какие функции потерь используются для классификации?
в) Подробная статья:
Знаменитые DNN в машинном обучении
а) Обзор:
б) Примеры вопросов:
- Как сеть ResNet решает проблему исчезающего градиента?
- Какова одна из основных ключевых особенностей сети Inception?
- Что такое быстрые соединения в сети ResNet?
в) Подробные статьи:
Методы ансамбля в машинном обучении
а) Обзор:
б) Примеры вопросов:
- Что такое ансамблевое обучение?
- Что такое бэггинг, бустинг и стекинг в машинном обучении?
- В чем разница между бэггингом и бустингом?
- Назовите несколько методов повышения
в) Подробные статьи:
Резюме
В этой статье представлен список шпаргалок по важным темам для собеседования по машинному обучению, за которыми следуют некоторые примеры вопросов. К статье постоянно добавляется список тем и количество шпаргалок.
Если эта статья была для вас полезной, не стесняйтесь хлопать в ладоши, делиться ей и отвечать на нее. Если вы хотите узнать больше о машинном обучении и науке о данных, подпишитесь на меня @ Aqeel Anwar или свяжитесь со мной в LinkedIn.