Какие сайты использовались для обучения Google Bard AI?

Google Bard, существование которого основано на языковой модели LaMDA, вызывает вопросы о происхождении его обучающих наборов данных, известных как Infiniset. Тайна, окружающая источник и получение этих наборов данных, побуждает нас задуматься об этичности разработки ИИ и прозрачности технологических компаний.

В то время как исследовательский документ LaMDA от 2022 года предоставляет информацию о составе наборов данных, используемых для обучения языковой модели, всего 25% можно отследить до общедоступных источников, таких как просканированный веб-контент и Википедия. Это поднимает дополнительные вопросы о происхождении и качестве оставшихся 75% данных, используемых для обучения системы ИИ.

Наборы данных Google

Набор данных Google Infiniset является источником философских размышлений, особенно в отношении его применения в технологии искусственного интеллекта. Языковая модель LaMDA, на которой работает Google Bard, была обучена на этом наборе данных с целью улучшения ее способности участвовать в диалоге.

Выбор в пользу использования Infiniset, смеси избранного интернет-контента, поднимает вопросы о мотивах и предубеждениях, лежащих в основе процесса выбора, а также о влиянии этого выбора на обучение системы ИИ. Он предлагает нам задуматься об ответственности технологических компаний за формирование будущего ИИ, а также об этических соображениях, которые необходимо учитывать при разработке и обучении этих систем.

Исследовательский документ LaMDA (PDF) объясняет, почему был выбран такой состав контента:

Исследовательская работа по LaMDA, языковой модели, лежащей в основе Google Bard, вводит понятие «диалог» и «диалоги» в области компьютерных наук. Эта терминология предлагает нам задуматься о роли систем ИИ в человеческом общении и потенциальном влиянии этих систем на наше общество и отношения.

Языковая модель была предварительно обучена на обширном корпусе «данных общедоступных диалогов и веб-текста», всего 1,56 триллиона слов. Этот ошеломляющий объем информации служит напоминанием о силе и влиянии технологии ИИ и побуждает нас задуматься об ответственности, связанной с разработкой этих систем. Это поднимает вопросы о последствиях обучения ИИ такому огромному количеству данных, а также о потенциальных предубеждениях и неточностях, которые могут быть присущи процессу обучения.

Набор данных состоит из следующих компонентов:

12,5% данных на основе C4
12,5% англоязычная Википедия
12,5% документов с кодом из веб-сайтов вопросов и ответов по программированию, руководств и т. д.
6,25% веб-документов на английском языке
6,25% веб-документов не на английском языке
50% диалогов данные с публичных форумов

Происхождение большинства данных, используемых для обучения LaMDA, языковой модели Google Bard, остается тайной. Только 25% данных взяты из названных источников, в частности из набора данных C4 и Википедии. Остальные 75% данных в наборе данных Infinite состоят из слов, взятых из Интернета.

В исследовательской статье нет конкретной информации о методе, использованном для получения этих данных, конкретных веб-сайтах, с которых они были получены, или каких-либо других подробностей об извлеченном контенте. Google просто предоставляет обобщенные описания, такие как «веб-документы не на английском языке».

Это отсутствие прозрачности в источнике данных привело к тому, что его назвали «темным», что означает неясный или неопределенный. Хотя есть подсказки, которые могут дать общее представление о веб-сайтах, включенных в скопированные данные, это невозможно узнать наверняка.

Набор данных C4

C4 — это набор данных, разработанный Google в 2020 году. C4 означает «Colossal Clean Crawled Corpus».

Этот набор данных основан на данных Common Crawl, который является набором данных с открытым исходным кодом.

Следующие статистические данные о наборе данных C4 взяты из второй исследовательской работы, ссылка на которую приведена выше.

В число 25 лучших веб-сайтов (по количеству токенов) в C4 входят:

Google не указывает, какие сайты входят в категорию Сайты вопросов и ответов по программированию, которая составляет 12,5 % набора данных, на котором обучалась LaMDA.

Так что мы можем только догадываться.

Stack Overflow и Reddit кажутся очевидными вариантами, тем более что они были включены в набор данных MassiveWeb.

Но следующие два не объясняются:

В исследовательском документе представлена лишь ограниченная информация с общим описанием 13% сайтов, включенных в базу данных, как «веб-страницы на английском и других языках». Эта скудная информация служит напоминанием о сложностях и проблемах, связанных с разработкой систем ИИ.

Это побуждает нас задуматься об этических и философских последствиях обучения систем ИИ на больших объемах данных, а также об ответственности, связанной с этими усилиями. Расплывчатость информации, предоставленной Google относительно источника обучающих данных, вызывает вопросы о точности, беспристрастности и прозрачности создаваемых нами систем искусственного интеллекта.

Должен ли Google быть прозрачным в отношении наборов данных

Использование веб-сайтов для обучения систем искусственного интеллекта вызвало обеспокоенность у издателей, которые опасаются, что их сайты могут устареть. Хотя обоснованность этих опасений еще предстоит определить, они вызывают законное беспокойство среди издателей и тех, кто занимается поисковым маркетингом.

Учитывая это, растут споры о том, должен ли Google быть более прозрачным в отношении наборов данных, используемых для обучения систем ИИ, и окажут ли такие системы долгосрочное влияние на будущее Интернета.

Какие сайты использовались для обучения Google Bard AI?

Наборы данных Google

Набор данных C4

Должен ли Google быть прозрачным в отношении наборов данных

Вопросы по теме