Переосмысление атрибуции контента для ИИ: большие языковые модели и их влияние на авторов

Stack Overflow уже много лет является незаменимым ресурсом для разработчиков программного обеспечения. Однако недавние достижения в области искусственного интеллекта, особенно в моделях больших языков (LLM), привели к значительному падению его трафика — примерно на 50 % за последние полтора года.*

LLM были обучены с данными SO, полезность и влияние SO преумножились, но теперь трафик фиксируется в другом месте.

Мы не так уж далеки от будущего, в котором вы будете разговаривать с ИИ-помощником, и он будет просматривать Интернет за вас. chatGPT, Sydney, Perplexity, Bard и You.com — хорошие примеры.

Направление меньшего количества трафика к источникам не обязательно плохо. Для электронной коммерции трафик может быть ниже, но конверсия выше. Агрегаторы и помощники ИИ будут отправлять взращенных и готовых конвертировать потенциальных клиентов.

LLM должны учитывать атрибуцию и происхождение, чтобы правильно стимулировать создателей контента. Без достаточного количества обучающих данных, представляющих наши коллективные знания, не будет ни AGI/ASI/HLI, ни следующего поколения. продукты.

Новые архитектуры моделей

Отделяйте логику от данных при обучении LLM по аналогии с программным шаблоном Model View Controller (MVC). Статья РЕТРО пролила некоторый свет на это направление, но исследований по этому поводу не последовало.

Существующие архитектуры на основе трансформеров

Данные смешиваются с весами модели с текущими архитектурами на основе Transformer.

Потенциальное решение состоит в том, что если ответ касается определенной темы, такой как кодирование, укажите все источники обучающих данных, которые связаны с этой темой. Например, Stack Overflow, проблемы GitHub, документация Python и т. д. Здесь может помочь тематическое моделирование.

Если вы спросите меня о структурах данных, я могу указать источники модулей Data Structures из Университета. Аналогичная система может быть применена и здесь.

Можно использовать рекомендательную систему на основе контента, чтобы найти образцы, наиболее похожие на ответ. Это позволит перейти от темы к отдельным образцам/URL.

Поиск расширенного LLM

Извлекающие расширенные LLM сначала извлекают данные из внешнего источника данных и используют их в качестве контекста для генерации ответа. Можно установить ограничения с помощью подсказок, чтобы заставить модель использовать только контекст для генерации ответа. Теоретически сгенерированный ответ будет содержать ссылки на исходные источники данных, что поможет установить авторство.

Если у вас есть другие идеи, не стесняйтесь поделиться.

*Есть и другие факторы, такие как приобретение PE и не считая пользователей, отказавшихся от согласия на использование файлов cookie.

Переосмысление атрибуции контента для ИИ: большие языковые модели и их влияние на авторов

Вопросы по теме