Интервью по проектированию системы машинного обучения

Вопросы производительности и емкости

Помимо показателей, таких как AUC, точность, отзыв и т. д., мы также гарантируем, что в то же время мы соблюдаем требования к емкости и производительности.

Кроме того, производительность и емкость являются наиболее важными факторами, о которых следует подумать при разработке системы машинного обучения. Соглашение об уровне обслуживания, основанное на производительности, гарантирует, что мы вернем результаты в течение заданного периода времени (например, 500 мс) для 99 % запросов. Емкость относится к нагрузке, с которой может справиться наша система, например, система может поддерживать 1000 QPS (запросов в секунду).

метрику можно разделить на покомпонентную метрику и сквозную метрику.
Показатель офлайн и показатель онлайн
производительность и вместимость

Рассмотрение сложностей для системы ML имеет три разных типа сложностей:

сложность обучения:
сложность оценки:
сложность выборки: выборка алгоритма машинного обучения — это общее количество обучающих выборок, необходимых для успешного изучения целевой функции.

Чтобы одновременно управлять производительностью и емкостью системы, обычно используется один разумный подход — начать с относительно быстрой модели, когда у вас есть наибольшее количество документов, а затем использовать относительно сложную модель, когда у вас есть меньшее количество документов. документы. Возьмем в качестве примера предсказание рекламы. Обычно это называется воронкообразным подходом.

Стратегии сбора обучающих данных

Большинство реальных задач подпадают под категорию задач обучения с учителем, которые требуют помеченных обучающих данных. Это означает, что необходимо стратегически подумать о сборе размеченных данных для подачи в вашу систему обучения.

Методы:

взаимодействие пользователя с уже существующей системой (онлайн-сбор данных)
маркировщики людей (автономный сбор данных
Дополнительные методы творческой коллекции

Потребителем нашей системы машинного обучения является пользователь Netflix.

Примечание:

ранняя версия для рекомендации фильмов может быть на основе популярности, на основе локализации, на основе рейтинга, созданной вручную модели или на основе машинного обучения.
Целевой сбор данных:узнайте, как определить области, в которых система работает плохо, и сосредоточьтесь на сборе данных о них. Например, вы можете обнаружить, что он плохо работает для изображений в ночное время и при наличии нескольких пешеходов. Поэтому вы больше сосредоточитесь на сборе и маркировке изображений в ночное время и изображений с несколькими пешеходами.

Онлайн-экспериментирование (экспериментирование с моделями и процесс оценки)

Теперь задача состоит в том, чтобы определить, значительно ли количество успехов в варианте выше контрольного, т. е. оказало ли преобразование положительное влияние на производительность системы.

Примечание:

поисковая система имеет два типа алгоритма: попарный и точечный алгоритм
Поисковая система Страницы результатов (SERP) — это страницы, отображаемые поисковыми системами в ответ на запрос пользователя. . Основным компонентом SERP является список результатов, возвращаемых поисковой системой в ответ на запрос ключевого слова.

Встраивание

Используйте сценарий:

Встраивание текста
Визуальное встраивание
Изучите встраивание для конкретной задачи
Встраивание на основе отношений

Трансферное обучение

Количество слоев, которые мы замораживаем, зависит от

подобие задачи прогнозирования
количество помеченных данных

Отладка и тестирование модели

С точки зрения разработки модели есть два основных этапа, которые мы рассмотрим:

Построение первой версии модели и системы машинного обучения.
Многократные улучшения по сравнению с первой версией, а также устранение проблем в крупномасштабных системах машинного обучения.

Наша первая попытка использовать модель в сети, т. е. включить живой трафик, может не сработать так, как ожидалось, и результаты будут выглядеть не так хорошо, как мы ожидали, в автономном режиме. Давайте рассмотрим несколько сценариев сбоев, которые могут произойти на этом этапе, и способы их устранения.

Зачем:

изменение распределения признаков: сезонность данных, например, covid-19
проблемы с регистрацией функций: заметный сдвиг в генерации функций между обучением и обслуживанием. Итак, было бы неплохо посмотреть, одинакова ли логика создания функций для автономного обучения, а также для онлайн-обслуживания части оценки модели.
переоснащение

Итеративные улучшения начинаются с примеров сбоев, а затем с поиска отсутствующих функций для смягчения сбоев. Например, рассмотрим сценарий, в котором фильм, действительно понравившийся пользователю, получил очень низкую оценку в нашей системе рекомендаций. При отладке мы выясняем, что пользователь ранее смотрел два фильма одного и того же актера, поэтому добавление функции в предыдущие оценки этого актера может помочь нашей модели работать лучше в этом случае.

Примечание:

Важно быстро запустить версию 1 в реальной системе, а не тратить слишком много времени на ее оптимизацию. Например, если наш AUC равен 0,7 и это лучше, чем текущая система с AUC 0,68, обычно лучше использовать модель онлайн, а затем продолжать итерацию для улучшения качества.
Методология системы на основе правил:
Общая метрика системы ранжирования поиска: NDCG

Ссылка:

1. https://www.educative.io/courses/grokking-the-machine-learning-interview/JY4x4vAV8yD

Интервью по проектированию системы машинного обучения — практические методы и концепции

Вопросы производительности и емкости

Стратегии сбора обучающих данных

Онлайн-экспериментирование (экспериментирование с моделями и процесс оценки)

Встраивание

Трансферное обучение

Отладка и тестирование модели

Вопросы по теме