Основные тенденции данных и машинного обучения в 2021 году… и что они значат для 2022 года

2021 год был богат новостями, связанными с данными и искусственным интеллектом. А потом что? В этой статье мы выбрали несколько историй и сообщений в блогах, которые мы сочли полезными, сделали шаг назад и попытались сделать вывод, чего ожидать от этих ранних «признаков» на 2022 год.

Эта статья стала возможной благодаря вкладу Артура Деренна, Робина Думерка, Амале Эль Хамри, Бенуа Гужона, Винсента Лучани и Ханании Уазан.

1 — Укрощение непристойности базовых моделей

В 2021 году действительно появились новые большие модели. После GPT-3 (Brown et al., 2020) годом ранее вы, возможно, слышали о CLIP или совсем недавно Gopher. Эти основные модели, как их называет Боммасани et al. (2021) (поскольку их архитектура часто используется повторно, слегка изменяется для адаптации к конкретной задаче машинного обучения, или поскольку они также часто дополнительно настраиваются с помощью трансферного обучения), продолжают свой путь и прогресс, поскольку, похоже, нет никаких ограничений на количество оптимизированных параметров или данных, используемых для их обучения. Интересно, что эти модели обеспечивают значительный прирост производительности, используя, как отмечают Боммасани и соавторы, сочетание появления и гомогенизация.

Начнем с гомогенизации: большинство моделей, которые вы видите в литературе, не только адаптированы из этих общих архитектур (вспомните широко распространенный в наши дни BERT);но и практики часто не меняют архитектуры, они просто настраивают доступную «большую» модель для последующей задачи, используя трансферное обучение. Эта «инвариантность» архитектуры означает, что новые улучшения одной базовой модели могут легко распространяться на все ее дочерние модели.

Затем появление происходит из-за того, как они обрабатывают обучающие данные. Обученные под самоконтролем, полагаясь на необработанные данные, которые не были помечены определенным образом, они начинают показывать, что они могут удовлетворить потребности, для которых они не были созданы изначально (возможность нулевого выстрела). Сложные задачи машинного обучения, которые страдают от очень плохой доступности данных, могут быть лучше решены с использованием знаний, которые эти модели извлекают из больших блоков данных. Мы все еще находимся на ранних стадиях, и результаты часто вызывают больше беспокойства, чем успеха, но GPT-3, например, учится решать задачу непосредственно из подсказки, которую он не видел во время обучения (по крайней мере, теоретически не должны были видеть…). Появление незапланированных возможностей означает, что мы можем перейти к более функциональному и универсальному машинному обучению.

Эти преимущества не приходят без структурных изменений. Поскольку они по своей природе велики, список организаций и компаний, способных создавать такие модели, ограничен. Это определенно должно способствовать использованию машинного обучения с помощью проприетарных API-интерфейсов ИИ или интерфейсов подсказок, перекладывая обучение и обслуживание базовых моделей на инженеров. С другой стороны, поскольку все больше моделей будет зависеть от одного родителя, мы можем ожидать большего регулирования, этического и социального исследования этих моделей (поскольку дети наследуют предвзятость своей базовой модели). интерфейсы, так или иначе… начиная с их углеродного следа.

2. Обеспечение устойчивости ИИ

Неудивительно, что эти новые формы ИИ обходятся дорого с точки зрения выбросов углекислого газа: по оценке Strubell et al., одно обучение BERT на графических процессорах примерно эквивалентен перелету из Нью-Йорка в Сан-Франциско, в то время как Таддео и др. оценивают, что одна тренировка GPT-3 выбрасывает столько же CO2, сколько 49 автомобилей в течение года.

Сначала ИИ рассматривался как ценный инструмент для решения проблем, связанных с изменением климата (см. многие идеи из воркшопа NeurIPS Решение проблемы изменения климата с помощью машинного обучения 2019 г.), но многие эксперты также указывают на его углеродный след. Устойчивый ИИ, как выразилась Эми ван Винсберг, должен охватывать не только ИИ для устойчивого развития, но и устойчивость ИИ (которая также не должна ограничиваться экологическими проблемами).

Как рекомендует Абхишек Гупта, работа в пользу устойчивого ИИ означает изучение новых способов работы. TinyML может помочь нам избежать затрат энергии на беспроводные вычисления, в то время как осведомленность об углероде должна помочь нам понять, в каком географическом месте мы можем лучше всего обучать и развертывать наши модели машинного обучения. Более разумное использование существующего оборудования и сервисов также должно быть заботой каждого.

Какие бы решения ни использовались для обеспечения устойчивого ИИ, мы ожидаем, что лица, принимающие решения, с большей вероятностью подумают дважды, прежде чем запускать проекты ИИ. В связи с этим возникает проблема измерения воздействия машинного обучения на окружающую среду.

Развитие машинного обучения в 2022 году должно сопровождаться более систематической отчетностью об эквиваленте CO2 рядом с показателями производительности (см., например, codecarbon), большей прозрачностью со стороны облачных провайдеров (см. панель мониторинга углеродного следа GCP) и, прежде всего, более глубоким размышления о преимуществах и затратах на использование ИИ. Наиболее убедительными будут те проекты, в которых применяется целостный подход: не только количественная оценка углеродного следа вычислений, но и оценка эффективности этих новых продуктов, не забывая при этом учитывать потенциал эффект отскока. Измерения углеродного следа этих больших моделей недостаточно: мы должны принимать во внимание весь конвейер от начала до конца: обучение, развертывание, мониторинг, а также его влияние на методы работы людей.

3 – добавление дзен-стиля к вашим MLOP

Это важно, поскольку производственная сторона машинного обучения становится все более и более сложной и изощренной. MLOP особенно продолжали бум в этом году, и, как объясняет Мэтт Терк, в нем было много инноваций и популярных концепций. Подумайте просто о хранилищах функций, возможностях потоковой передачи и обо всех инициативах DataOps, которые мы рассмотрим чуть ниже.

Хотя 2021 год снова стал годом бума для MLOP, мы также начали видеть вдумчивую критику в адрес самой шумихи. И аргументы справедливы: ландшафт MLOP еле разборчив, включает в себя сотни концепций и инструментов, может быть, часто убивает его, и можно обоснованно утверждать, что среднестатистическому проекту все они не обязательно понадобятся. Большинство компаний разумного масштаба, которые не являются FAANG (то есть без огромных технических команд, без бесконечной рентабельности инвестиций, генерируемых ИИ, с разумными объемами данных) должны быть простыми.

По-прежнему трудно предсказать, как будет развиваться этот ландшафт: без сомнения, мы должны ожидать появления большего количества стартапов, а также некоторой гомогенизации и консолидации крупных игроков. Инструменты без кода или с низким кодом, безусловно, будут продолжать расти и делать эти функции доступными для всех. Как бы ни сложились обстоятельства, мы также искренне верим в появление в ближайшие несколько лет открытых стандартов и канонических стеков машинного обучения, таких как тот, который AI Infrastructure Alliance намеревается создать (отказ от ответственности : Артефакт является частью Альянса).

Поэтому мы желаем, чтобы в 2022 году вы добавили немного дзен в свои MLOP. Это означает, во-первых, сделать шаг назад и сократить свой стек до того, что действительно важно: эффективность ваших моделей машинного обучения и производительность ваших специалистов по данным, например, с агрессивно полезным менталитетом, который приняла команда платформы Stitch Fix. Затем, поскольку большинство антипаттернов проекта машинного обучения, похоже, исходят из данных, поработайте над консолидацией основ вашего проекта: как вы сами получаете и обрабатываете данные. По словам Чиро Греко, данные действительно должны стать первоклассным гражданином вашего производственного стека.

4. Превращение данных в продукт, а не просто входные данные

Всегда речь шла о данных, — должен объявить 2021 год с возобновлением интереса к ним, о чем, конечно же, свидетельствует движение Data-Centric AI, запущенное Эндрю Нг. Не только данные — это топливо для ваших производительности модели машинного обучения, но и там, где возникают проблемы, поскольку несбалансированные, предвзятые или плохо помеченные данные определенно окажут пагубное влияние на последующие алгоритмы. Таким образом, для одной данной и фиксированной модели мы должны иметь возможность получить качество только работая над входными данными, данными.

Что интересно, это движение должно примирить всех в цепочке создания ценности, начиная со стороны инженеров данных и ее недавних призывов развивать практики DataOps (и мы сами с большим удовольствием в этом году включили такие инструменты, как Большие надежды). » во всех наших проектах) специалистам по данным и аналитикам, у которых не будет недостатка в сложных методологиях для уточнения имеющихся данных (аугментация, маркировка, коррекция смещения, выборка…). Конечно, мы считаем, что это невозможно без явных инвестиций со стороны высшего руководства и применения явных процессов управления данными, чтобы сначала идентифицировать, а затем структурировать различные домены и их владельцев в организации.

Это, в сочетании с тем фактом, что данные будут все более и более легко перемещаться благодаря таким инициативам, как Airbyte, и постоянное совершенствование технологий обмена данными в нашем современном стеке данных, позволит компаниям, очевидно, найти новые перспективы из самих данных, параллельно с тем, что ИИ уже приносит с точки зрения автоматизации и понимания.

***

Вот и все! Таким образом, в этот период новогодних решений мы желаем вам укротить непристойность базовых моделей, сделать ИИ устойчивым, добавить нотку Дзен в свои MLOP и, наконец, взращивать свои данные как продукт, а не просто рассматривать их как входные данные. А ты? Что вас больше всего удивило в прошлом году? Что, по вашему мнению, произойдет в этом году?

Спасибо, что нашли время прочитать эту статью. Чтобы узнать больше об Artefact, посетите наш веб-сайт.