Google Bard, существование которого основано на языковой модели LaMDA, вызывает вопросы о происхождении его обучающих наборов данных, известных как Infiniset. Тайна, окружающая источник и получение этих наборов данных, побуждает нас задуматься об этичности разработки ИИ и прозрачности технологических компаний.
В то время как исследовательский документ LaMDA от 2022 года предоставляет информацию о составе наборов данных, используемых для обучения языковой модели, всего 25% можно отследить до общедоступных источников, таких как просканированный веб-контент и Википедия. Это поднимает дополнительные вопросы о происхождении и качестве оставшихся 75% данных, используемых для обучения системы ИИ.
Наборы данных Google
Набор данных Google Infiniset является источником философских размышлений, особенно в отношении его применения в технологии искусственного интеллекта. Языковая модель LaMDA, на которой работает Google Bard, была обучена на этом наборе данных с целью улучшения ее способности участвовать в диалоге.
Выбор в пользу использования Infiniset, смеси избранного интернет-контента, поднимает вопросы о мотивах и предубеждениях, лежащих в основе процесса выбора, а также о влиянии этого выбора на обучение системы ИИ. Он предлагает нам задуматься об ответственности технологических компаний за формирование будущего ИИ, а также об этических соображениях, которые необходимо учитывать при разработке и обучении этих систем.
Исследовательский документ LaMDA (PDF) объясняет, почему был выбран такой состав контента:
Исследовательская работа по LaMDA, языковой модели, лежащей в основе Google Bard, вводит понятие «диалог» и «диалоги» в области компьютерных наук. Эта терминология предлагает нам задуматься о роли систем ИИ в человеческом общении и потенциальном влиянии этих систем на наше общество и отношения.
Языковая модель была предварительно обучена на обширном корпусе «данных общедоступных диалогов и веб-текста», всего 1,56 триллиона слов. Этот ошеломляющий объем информации служит напоминанием о силе и влиянии технологии ИИ и побуждает нас задуматься об ответственности, связанной с разработкой этих систем. Это поднимает вопросы о последствиях обучения ИИ такому огромному количеству данных, а также о потенциальных предубеждениях и неточностях, которые могут быть присущи процессу обучения.
Набор данных состоит из следующих компонентов:
- 12,5% данных на основе C4
- 12,5% англоязычная Википедия
- 12,5% документов с кодом из веб-сайтов вопросов и ответов по программированию, руководств и т. д.
- 6,25% веб-документов на английском языке
- 6,25% веб-документов не на английском языке
- 50% диалогов данные с публичных форумов
Происхождение большинства данных, используемых для обучения LaMDA, языковой модели Google Bard, остается тайной. Только 25% данных взяты из названных источников, в частности из набора данных C4 и Википедии. Остальные 75% данных в наборе данных Infinite состоят из слов, взятых из Интернета.
В исследовательской статье нет конкретной информации о методе, использованном для получения этих данных, конкретных веб-сайтах, с которых они были получены, или каких-либо других подробностей об извлеченном контенте. Google просто предоставляет обобщенные описания, такие как «веб-документы не на английском языке».
Это отсутствие прозрачности в источнике данных привело к тому, что его назвали «темным», что означает неясный или неопределенный. Хотя есть подсказки, которые могут дать общее представление о веб-сайтах, включенных в скопированные данные, это невозможно узнать наверняка.
Набор данных C4
C4 — это набор данных, разработанный Google в 2020 году. C4 означает «Colossal Clean Crawled Corpus».
Этот набор данных основан на данных Common Crawl, который является набором данных с открытым исходным кодом.
Следующие статистические данные о наборе данных C4 взяты из второй исследовательской работы, ссылка на которую приведена выше.
В число 25 лучших веб-сайтов (по количеству токенов) в C4 входят:
- Patents.google.com
- en.wikipedia.org
- en.m.wikipedia.org
- www.nytimes.com
- www.latimes.com
- www.theguardian.com
- Journals.plos.org
- www.forbes.com
- www.huffpost.com
- Patents.com
- www.scribd.com
- www.washingtonpost.com
- www.fool.com
- ipfs.io
- www.frontiersin.org
- www.businessinsider.com
- www.chicagotribune.com
- www.booking.com
- www.theatlantic.com
- link.springer.com
- www.aljazeera.com
- www.kickstarter.com
- caselaw.findlaw.com
- www.ncbi.nlm.nih.gov
- www.npr.org
Google не указывает, какие сайты входят в категорию Сайты вопросов и ответов по программированию, которая составляет 12,5 % набора данных, на котором обучалась LaMDA.
Так что мы можем только догадываться.
Stack Overflow и Reddit кажутся очевидными вариантами, тем более что они были включены в набор данных MassiveWeb.
Но следующие два не объясняются:
В исследовательском документе представлена лишь ограниченная информация с общим описанием 13% сайтов, включенных в базу данных, как «веб-страницы на английском и других языках». Эта скудная информация служит напоминанием о сложностях и проблемах, связанных с разработкой систем ИИ.
Это побуждает нас задуматься об этических и философских последствиях обучения систем ИИ на больших объемах данных, а также об ответственности, связанной с этими усилиями. Расплывчатость информации, предоставленной Google относительно источника обучающих данных, вызывает вопросы о точности, беспристрастности и прозрачности создаваемых нами систем искусственного интеллекта.
Должен ли Google быть прозрачным в отношении наборов данных
Использование веб-сайтов для обучения систем искусственного интеллекта вызвало обеспокоенность у издателей, которые опасаются, что их сайты могут устареть. Хотя обоснованность этих опасений еще предстоит определить, они вызывают законное беспокойство среди издателей и тех, кто занимается поисковым маркетингом.
Учитывая это, растут споры о том, должен ли Google быть более прозрачным в отношении наборов данных, используемых для обучения систем ИИ, и окажут ли такие системы долгосрочное влияние на будущее Интернета.