Пять лет назад The ​​Economist заявил, что данные — это новая нефть. С тех пор влияние накопленных данных на мир стало еще более неоспоримым. Вот почему компаниям следует относиться к моделям ИИ как к одной из наиболее важных объектов интеллектуальной собственности, а не отбрасывать их как нечто, что может оказать влияние в будущем. Современные большие современные модели искусственного интеллекта можно рассматривать как мощный инструмент для активации данных организации и максимизации их ценности.

Модели ИИ — это просто организованная версия данных компании в виде гибкой базы данных с интуитивно понятными запросами. Таким образом, обученные модели представляют собой уникальную ценность, которую компания приносит миру с помощью данных, которые она собирает, продавая продукты и услуги своим клиентам. Чтобы в полной мере воспользоваться своим самым ценным активом, компании должны иметь возможность создавать эти модели внутри компании.

Понимание моделей ИИ: краткая история

Чтобы лучше понять, что представляют собой модели ИИ, полезно взглянуть на источник их вдохновения: человеческий мозг. Наш мозг кодирует информацию в силе связи между нейронами, известной как синапс. Информация обычно организована в виде изученной концептуальной иерархии; необработанные данные преобразуются в понятия и отношения между понятиями. Долгосрочные воспоминания формируются, когда эти понятия и связи кодируются в постоянные синаптические силы. Мы можем извлечь эти закодированные воспоминания с помощью языка, зрения, прикосновения или любого другого триггера, когда необходима соответствующая информация.

На заре искусственных нейронных сетей ученые пытались воспроизвести некоторые из этих моделей поведения, моделируя силу синапсов в виде числового веса, а связи — в виде операции умножения между весами и нейронами. Биологические нейронные сети (также известные как мозг) используют химические процессы для «обновления своих весов» и изменения влияния одного нейрона на другой во время обучения. Искусственные нейронные сети обновляют свои веса во время обучения, используя алгоритм, называемый обратным распространением; это итеративный метод, который уменьшает ошибку вывода. Обратное распространение обычно требует, чтобы глобальная информация об ошибке обновляла каждый вес после того, как каждая выборка была протолкнута. Хотя искусственные нейронные сети отличаются от биологических с точки зрения того, как эти веса изучаются, обе они дают один и тот же результат: входные данные кодируются в весах нейронной сети.

Примерно пять лет назад инновации в моделях ИИ были сосредоточены на топологии нейронной сети — буквально на том, как организована модель. Идея заключалась в том, что возможности обученной модели в значительной степени связаны с топологией и ее способностью обеспечивать лучшее понимание внутренней структуры данных, на которых она обучается. Каждый год появлялись новые топологии, повышающие производительность тестов на стандартных наборах данных, таких как MNIST, CIFAR и ImageNet. AlexNet, VGG, Inception Networks и ResNet — все это примеры сетей, способных достичь новых уровней обучения на основе одного и того же набора данных.

Совсем недавно мы стали свидетелями появления новых типов моделей, таких как модели больших языков (LLM) и модели распространения, которые узнают о нашем мире, подвергаясь воздействию данных. LLM, такие как BERT, узнают о структуре предложения и знаниях, встроенных в текст, который им подают. Диффузионные модели (наиболее известные, DALL-E) узнают об отношениях между текстовыми описаниями изображений и способны создавать изображения на основе новых описаний. В отличие от нашего предыдущего внимания к топологии модели, мы начинаем понимать, что сами данные и то, как они представлены во время обучения, определяют достигнутую производительность. Фактически происходит стандартизация топологии нейронной сети, подобно эволюционному феномену, наблюдаемому в биологии.

Модели ИИ — это организованные данные

Когда модель ИИ обучается, она кодирует отношения, наблюдаемые в данных, на которых она обучается. Результирующая модель подобна отпечатку пальцев обучающих данных. Как будто каждая модель ИИ имеет свою собственную идентичность, поскольку каждый набор данных и метод обучения создает уникальный набор представлений. На самом деле генеративные модели ИИ могут даже запоминать части обучающего набора данных, которые могут быть извлечены по запросу. Нейронные сети способны представлять огромные наборы данных. Внезапно все пространство, представленное набором данных, можно использовать для принятия решений, выражая его через генеративную модель.

Эти модели можно рассматривать как форму базы данных, которая уникальна и специфична для данных, на которых она обучается. Но они не являются базами данных в каком-либо стандартном смысле. Традиционные базы данных основаны на жестко структурированных входных данных, таких как столбцы и строки, предопределенная организационная схема и строго структурированные запросы. SQL и другие языки были разработаны для точного выражения этих запросов в рамках этих организационных схем.

Большие модели обрабатывают данные по-разному. Они могут находить неотъемлемые отношения в неструктурированных, зашумленных входных данных и обнаруживать организационную схему для представления этих данных. Данные можно запрашивать неструктурированными и неточными способами. Большие языковые модели, такие как GPT-3, позволяют этим запросам поступать в форме естественного человеческого языка со всей его неточностью. Например, пользователи могут взаимодействовать с моделью OpenAI GPT-3, задавая ей вопросы об истории, политике или науке. Модели диффузии, такие как стабильная диффузия, позволяют выполнять запросы на человеческом языке, которые создают новые комбинации пикселей (сгенерированные изображения), представляющие ассоциации между этими словами и изображениями в наборе обучающих данных. Эти модели способны извлекать значимые отношения, встроенные в набор данных, приближаясь к возможностям извлечения знаний.

Однако, несмотря на кажущиеся волшебными качества этих популярных моделей, способность взаимодействовать с данными таким образом только сейчас осознается. В настоящее время сложно гарантировать точность воспроизведения знаний, что делает эти модели ненадежными для критически важных приложений. Например, нейронная сеть, на которой работает медицинский чат-бот, должна быть невероятно точной, чтобы предотвратить возможный вред пациентам. Это активная область исследований и разработок.

Почему построение моделей должно быть доступным

По мере того, как мы учимся использовать силу данных, а также создавать и обучать модели искусственного интеллекта для конкретной предметной области, у нас появляется потенциал для преобразования практически любой отрасли. Обучение модели ИИ отличается от логического вывода ИИ; последний гораздо менее требователен к вычислениям и имеет дело только с точками данных во время использования. Однако для обучения моделей требуется большое количество трех вещей, которых не хватает: вычисления, данные и таланты. По мере увеличения размеров модели растет и потребность в этих трех элементах.

Хотя многие методы, обычно используемые при обучении моделей, общедоступны, доступ к знаниям и технологиям, необходимым для их работы, ограничен. Проще говоря, возможности скрыты за сложностью. Более того, для построения модели ИИ с нуля с использованием заданного набора данных требуется огромное количество вычислительных мощностей, и лишь горстка таких компаний, как OpenAI, Meta и Google, имеет доступ к необходимой вычислительной мощности на сотни миллионов долларов. Эта ситуация создала мир имущих и неимущих; Создание и обучение моделей ИИ стало недоступным для большинства организаций, поскольку этим могут заниматься только самые продвинутые и хорошо обеспеченные ресурсами группы.

Результатом стал мир, в котором несколько команд создают новые модели на основе наборов данных, которые они курировали, а затем продают доступ к этим моделям через API. Это может показаться прогрессом — опытные команды создают решения и делают их широко доступными — но, как упоминалось ранее, модели — это представление их данных. Компании, специализирующиеся в определенной области, как правило, лучше всех понимают данные и то, как их следует использовать, но им не хватает знаний в области алгоритмов и систем, необходимых для построения моделей ИИ. Это разрозненность возможностей является фундаментальным препятствием для широкого и открытого применения ИИ в новых областях.

Во второй части этого блога я более подробно расскажу о том, почему такое положение дел может быть проблематичным… и как MosaicML работает над тем, чтобы разрушить эти разрозненные структуры и создать модели машинного обучения, обученные предметно-ориентированным данные широко доступны.

Первоначально опубликовано на https://www.mosaicml.com.