Чему мы рады в 2022 году! — Виржини Марелли

В этом посте мы собрали мнения наших экспертов о новых разработках в области искусственного интеллекта. Однако ИИ — это широкая область, и мы не претендуем на полное понимание всего ландшафта. Наша точка зрения неизбежно зависит от нашей деятельности в качестве поставщика услуг ИИ и нашего присутствия на бельгийском рынке. Помня об этом, мы изучаем различные тенденции, которые мы заметили в ИИ в различных отраслях, исследованиях, инструментах и многом другом.

Цель этой статьи — получить общее представление о ландшафте, а не углубляться в каждую из тем (хотя некоторые из них довольно интересны). Если вы тоже взволнованы и хотите большего, не волнуйтесь, мы обязательно углубимся в некоторые из этих интересных тем в течение года.

Во-первых, мы рассмотрим основную часть любого варианта использования ИИ: данные. Затем мы дадим обзор эволюции алгоритмов и методов, используемых для обработки данных. Мы коснемся управления и инфраструктуры, необходимых для использования всего потенциала ИИ и превращения его в основу бизнеса, основанного на данных. Наконец, мы кратко обсудим этические и социальные последствия ИИ. Каждый раздел является независимым, поэтому читатель может пропустить любую часть и сразу перейти к тому, что его больше всего интересует.

Эволюция доступности и структуры данных

В то время как структурированные данные были основной парадигмой, вокруг которой были созданы приложения на основе данных и, следовательно, приложения на основе ИИ, мы наблюдаем сдвиг в отрасли, когда компании все чаще внедряют приложения на основе ИИ, которые могут напрямую извлекать пользу из неструктурированных данных.

💡

Мы являемся свидетелями того, как все больше и больше неструктурированных данных собираются и интегрируются в среды данных. Благодаря трансферному обучению и достижениям в области моделей модели ИИ для изображений, текста и звука стали в высшей степени демократичными. Многие библиотеки с открытым исходным кодом предлагают предварительно обученные модели, и все основные облачные провайдеры предлагают свои собственные версии когнитивных сервисов: от классификации изображений до извлечения сущностей, анализа настроений, перевода и преобразования речи в текст. Несомненно, такие типы моделей пошли в массы. Теперь вы можете очень легко интегрировать их в простые варианты использования.

В то время как раньше неструктурированные данные, такие как изображения или текст, нуждались в серьезной предварительной обработке перед их использованием в приложениях на основе ИИ, многим пользователям решений ИИ больше не нужно будет иметь дело с такими первоначальными инвестициями из-за растущей гибкости ИИ. Отчасти это связано с невероятным прогрессом в исследованиях ИИ, все более зрелыми и гибкими решениями для обработки данных и более широкими предложениями услуг, предназначенными для конкретных отраслей, требующих меньшей адаптации к конкретным предметным областям перед созданием ценности.

Мы видим, что помимо неструктурированных данных, достижения в области аппаратного обеспечения также влияют на метод сбора данных, с растущим переходом от пакетной обработки к потоковой, что также требует интеграции времени в качестве дополнительного измерения. С появлением все более дешевых и эффективных датчиков все чаще появляются новые варианты использования, которые позволяют ИИ расширять возможности отраслей с большим количеством датчиков, таких как «умные города», «Индустрия 4.0», производство и логистика. Инфраструктура данных временных рядов и сопутствующие алгоритмы искусственного интеллекта как никогда актуальны, библиотеки с открытым исходным кодом предлагают способы облегчения и сжатия моделей искусственного интеллекта, облачные провайдеры предлагают специализированные службы Интернета вещей, а потоковые механизмы ждут своего часа в центре внимания. Это наверняка приведет к появлению новых случаев, таких как цифровые двойники заводов и городов. ИИ на краю начинает бум.

Тенденции в алгоритмах искусственного интеллекта

Если возможно так много вариантов использования, то это благодаря неуклонно расширяющимся исследованиям в области ИИ. Мы внимательно следили за тенденциями в исследованиях и посетили масштабную и влиятельную Конференцию NeurIPS в декабре 2021 года. Основываясь на рекомендациях наших экспертов и нашем посещении этих конференций, мы составили список тенденций, которые, как мы ожидаем, будут иметь большое влияние в ближайшие годы.

Восстание трансформеров

Ясно одно: Трансформеры никуда не денутся. Преобразователи уже были двигателем современных приложений НЛП, но теперь все чаще применяются к другим типам данных или модальностям, таким как изображения, видео и аудио.

Наиболее привлекательной особенностью Трансформеров является не то, что их точность находится на том же уровне (или даже лучше), чем де-факто стандарт компьютерного зрения, а именно сверточные нейронные сети (CNN), а скорее их потенциал мультимодальность и мультимодальность. функциональные возможности задач, которые превосходят любые предыдущие подходы. Трансформаторы исключительно хорошо подходят для преодоления разрыва между несколькими модальностями, позволяя практикам решать проблемы, которые ранее были невозможны или требовали значительного объема исследований и разработок для единственного приложения.

Например, мы использовали DALL-E, модель, созданную OpenAI, которая генерирует изображение на основе подписи, написанной пользователем, чтобы отобразить следующее:

Однако в настоящее время трансформеры требуют значительно больше вычислительных ресурсов для той же производительности на прототипных задачах. Мы видим большие инвестиции в эту область исследований и верим. Трансформеры будут продолжать расти в размерах в течение 2022 года, и мы будем внимательно следить за этой эволюцией.

Бум обучения с подкреплением

Значительно больше внимания уделяется последствиям обучения с подкреплением (RL) в обществе. RL сильно отличается от традиционного машинного обучения тем, что последнее строит представление о мире, в то время как агенты RL обучаются и могут изменить мир динамическим образом. RL применим ко многим случаям использования, таким как рекомендательные механизмы, следующая лучшая структура действий и автоматизация. Чего мы пока не знаем, так это того, заменит ли RL более традиционные подходы к управлению, будут ли они применяться к другим вариантам использования или даже комбинироваться.

Объяснимость, интерпретируемость, подотчетность

Следя за вниманием регулирующих органов и растущим влиянием ИИ на широкую общественность, исследователи и специалисты отрасли все больше внимания уделяют объяснимому ИИ (XAI). Во многих отношениях XAI направлен на то, чтобы сделать приложения ИИ более ориентированными на человека, что означает повышенную интерактивность, прозрачность или человекоподобное представление результатов ИИ.

Следовательно, решения XAI с участием человека в цикле, которые интегрируют обратную связь с человеком, набирают обороты, особенно в сочетании с RL, который обеспечивает динамическую адаптацию к конкретным пользователям и контекстам задач. С точки зрения прозрачности ИИ и представления решений для принятия решений, как промышленность, так и академические круги все чаще используют графические данные и представления моделей. Наконец, существующие методы XAI пересматриваются и улучшаются, например, за счет предоставления возможности количественной оценки неопределенности существующих показателей важности функций, таких как LIME & Shapley, раскрывая (часто сомнительную) надежность этих доминирующих подходов XAI.

Это повышенное внимание привело к взрыву новых инициатив и стартапов с открытым исходным кодом, которые предоставляют решения XAI, что ставит перед отраслевыми практиками дилемму при выборе методологии и инструментов XAI. Dataroots предоставит рекомендации и информацию об этих тенденциях в ближайшие месяцы.

(Энергоэффективный ИИ)

Поскольку ИИ повсюду, а модели становятся все более сложными, для обучения моделей требуется много вычислительной мощности, а модели также потребляют ресурсы во время прогнозирования. Ожидается, что с ростом использования ИИ он рано или поздно станет экологической проблемой. Новая область исследований — изучение способов создания более экологически чистых моделей. Работа в основном сосредоточена на построении различных архитектурных моделей, иногда вдохновленных природой и нашим мозгом.

Финал исследовательского раздела

В заключение раздела об исследованиях мы хотели бы кратко упомянуть о квантовых вычислениях. Даже если он по-прежнему в основном используется в исследовательском контексте, он имеет интересные последствия и может использоваться для создания различных архитектур машинного обучения. Это определенно не скоро появится в индустрии, но очень интересно следить за ее эволюцией.

Есть еще много интересных событий, которые мы не упомянули в этом посте, и мы обязательно посвятим один (или несколько) постов подробному изучению интересных тенденций в исследованиях.

Использование ИИ зрелым образом — тенденции (ML, Dev & Data)-Ops в применении подхода к управлению продуктами для ИИ

Иметь первоклассные методы искусственного интеллекта — это здорово. Как нам теперь использовать весь потенциал этих алгоритмов?

Довольно долго существовал разрыв между разработкой моделей и их продукцией (собственно это одна из основных причин создания корней данных).

💡

Модели создавались как POC, обучались на дампе данных и в изолированной среде. Много боли и усилий было потрачено на индустриализацию этих красавцев, а затем еще больше боли и усилий было вложено в их мониторинг и поддержание. Мы были свидетелями того, как многие модели не использовались из-за болезненности индустриализации. И вот на выручку нам пришел симпатичный рыцарь MLOps. MLOps — это воспроизводимость, прослеживаемость и CICD. Платформы обеспечивают отслеживание экспериментов, управляемые и масштабируемые вычисления, управление версиями моделей, развертывание, мониторинг и даже справедливость и объяснимость. Мечта!

На практике существующие инструменты и платформы все еще могут быть улучшены, например, возможность масштабирования до десятков моделей (особенно для мониторинга и автоматического переобучения), более подходящая для настройки предприятия (мультисреды, рабочие пространства), более быстрая кривая обучения и иногда более стабильно. Мы уже видели много улучшений в этой области и будем продолжать внимательно следить за процессом созревания стека MLOps.

Благодаря стеку MLops, упрощающему производство ИИ и доступу к вычислительным ресурсам по запросу, модели все больше и больше обучаются онлайн. Модель обычно сначала обучают на исторических данных, а затем развертывают для прогнозирования. В то время как наше общество развивается очень быстро, модели необходимо оптимизировать в режиме реального времени, чтобы изучать новое поведение и оставаться актуальными. Мы видим, что онлайн-обучение и прогнозы/рекомендации в реальном времени увеличиваются в будущем.

Мы еще не обсуждали фундамент, делающий все вышеперечисленное возможным: инфраструктуру и конвейеры данных.

Инфраструктура и конвейеры данных

Эволюция данных с 1700 года до наших дней

Слово данные впервые было использовано в середине 17 века. Это множественное число латинского слова datum, означающего данные вещи. Нам придется подождать до 40-х годов, чтобы получить современное определение данных: передаваемая и хранимая компьютерная информация. В 80-х данные хранились на складах, а с 2010 года их также можно использовать в озерах. С тех пор платформы данных претерпели значительные изменения, а озера и хранилища данных сейчас сливаются. Гонка между Databricks и Snowflake — воплощение этой конвергенции.

Недавние инновации в области хранилищ данных ведут отрасль к технологическому стеку, называемому «современной архитектурой данных». Основным компонентом этого стека является единая система, обеспечивающая вычисления и хранение данных для вашей платформы данных и поддерживающая SQL как первоклассную составляющую. Как правило, эту роль берут на себя облачные хранилища данных, такие как Snowflake, Databricks и BigQuery.

Экосистема инструментов была построена вокруг этих хранилищ, чтобы легко поддерживать различные функции, которые должны быть частью платформы данных: Fivetran для приема данных, Airflow для оркестровки, Amundsen для каталогизации данных, great_expectations для качества данных, Looker для бизнес-аналитики и аналитики. , DBT для разработки SQL и многое другое.

Поскольку эти инструменты могут предполагать, что существует единое хранилище, поддерживающее все их потребности в хранении и вычислениях, они могут значительно упростить работу: они хорошо работают с SQL, более просты в эксплуатации (поскольку они могут позволить DWH выполнять тяжелую работу), легко настроить, и вы можете модульно добавлять и заменять различные инструменты!

Это хорошая новость для поклонников SQL. Мы должны отдать это IBM, SQL остается вечно модным. Конечно, у SQL были периоды в тени, но он снова в центре внимания и стал более популярным, чем когда-либо. С такими инструментами, как DBT и Big Query, преобразование данных никогда не было таким простым. В настоящее время можно даже развертывать модели в ваших SQL-запросах для пакетной обработки. Мы определенно ожидаем большего улучшения в упрощении и улучшении сложных конвейеров данных.

Наконец, проблема моделирования данных для баз данных до сих пор не решена, хранилище данных и методы Кимбалла еще не умерли! Сейчас Data Vault довольно устарел, но в последнее время его стали применять чаще, особенно для первого слоя данных. Схема звезды Кимбалла немного более противоречива. Некоторые, кажется, могут нормально обходиться без него, другие возвращаются к нему. Тем не менее остается вопрос, какие правила или методы вы можете применить, чтобы сохранить гибкость с таким дизайном?

Почему так много эволюции и так быстро?

💡

Мы живем в очень интересное время и являемся свидетелями метаморфоз всего современного рынка. Сначала это была гонка за цифровизацией, а теперь управление данными означает получение нового конкурентного преимущества. Если от ИИ больше не требуется доказывать свою ценность, это не значит, что рынок еще не достиг зрелости. Встраивание данных и ИИ во все услуги, продукты и операции не так просто. Внедрение правильной стратегии и процессов обработки данных имеет решающее значение для быстрой трансформации.

Управление быстро меняющимися технологиями эксплуатации

Data Mesh или Data Fabric — интересная философия управления данными для компонуемой компании. Он основан на децентрализации и распределении ответственности между субъектами, которые ближе всего к данным.

Сетка данных построена вокруг 4 принципов:

Управление доменом: гарантирует, что данные принадлежат тем, кто действительно их понимает.
Продукты данных: продукт данных — это узел в сетке, который предоставляет и потребляет данные из сетки.
Платформы самообслуживания: общая центральная система управляет историческими данными в режиме реального времени.
Федеративное управление вычислениями: речь идет об установлении глобальных стандартов.

Хотя Data Mesh — благородный квест, некоторые вопросы, связанные с его реализацией, остаются открытыми, например, какова будет роль владельца продукта? Будут ли бизнес-команды создавать «данные, ориентированные на потребителя»? Где будут играть инженеры по машинному обучению?

В настоящее время не существует стандартного стека, и совмещение необходимости автономии доменных команд с центральной системой не кажется простым.

Кроме того, управление данными и архитектура все еще нуждаются в развитии, чтобы ответить на эти правильные вопросы и избежать создания большого беспорядка (данных) при децентрализации обязанностей.

Этика и социальное влияние ИИ

Сегодня доступно все больше и больше ресурсов для обучения и понимания ИИ. Сообщество с открытым исходным кодом растет, предоставляя учебные пособия, код и поддержку по вопросам. Университеты и колледжи обучают студентов работе с ИИ и данными, предлагая мастер за мастером, чтобы дополнить любой тип обучения обучением ИИ. Несомненно, научиться искусству искусственного интеллекта легче, особенно если вы разбираетесь в технологиях.

Тем не менее, влияние, которое ИИ может оказать на наше общество, трудно поддается количественной оценке, и гражданину ЕС часто трудно осознать все последствия, которые ИИ может оказать на его жизнь. ИИ не всегда полезен, и его последствия могут быть пугающими. Одного взгляда на то, как средства массовой информации изображают различные скандалы (кампания Трампа, facebook, Amazon и т. д.), достаточно, чтобы понять это. Азия и США не всегда хорошие дети, из-за отсутствия правил возникают сомнительные приложения для ИИ: некоторые примеры — слежка, дискриминация и манипулирование.

К счастью, ЕС уже начал принимать законы, сначала с GDPR, а в апреле 2021 года они выпустили предложение по регулированию ИИ. Даже если он не станет юридически обязывающим в ближайшее время, это имеет много последствий. В первую очередь регламент касается отслеживаемости, которая в основном обеспечивается стеком MLOps. Второе направление регламента касается ответственного ИИ, что подразумевает создание ИИ, которому можно доверять. Короче говоря, ответственный ИИ — это честный ИИ, и ИИ, который можно объяснить (по-человечески). Мы ожидаем, что XAI (объяснимый ИИ) скоро станет частью любого проекта, и исследования по раскрытию черных ящиков идут полным ходом.

Также стоит упомянуть, что solid (основанный отцом WWW, он нацелен на получение прав собственности на данные и улучшение конфиденциальности для всех) начинает набирать обороты и внедряется в местные инициативы, такие как Data деревня и Датанутсбедрейф.

Наконец, дискуссии об этике в ИИ идут полным ходом: пытаются выяснить, как сбалансировать угрозы и возможности, которые он создает. Хорошо известным примером являются генеративные модели: разработанные с большими намерениями, они быстро применялись в некоторых спорных случаях, таких как кража личных данных. Кто знает, может быть, однажды инженерам машинного обучения придется дать клятву Гиппократа.

Заключительные замечания

Я надеюсь, что мы смогли пробудить ваш интерес и дать вам сжатую картину текущего ландшафта ИИ, а также некоторые из наших ожиданий от него. Мы очень взволнованы, этот новый год обещает много очень крутых разработок в области ИИ, и, как всегда, мы будем идти в ногу со временем. Если мы выбрали ваш интерес, обязательно следите за обновлениями, так как мы, скорее всего, углубимся в вышеуказанные темы и расскажем о них на одном из наших каналов!

Мы, наверное, пропустили некоторые темы, у всех нас есть свои белые пятна…

Если есть какая-либо тема, которую, по вашему мнению, мы должны были затронуть в этом посте, не стесняйтесь обращаться к нам, мы всегда рады расширить свой кругозор и получить свежие идеи.

подпишитесь на нашу RSS-ленту и на нашу страницу LinkedIn.