Google Bard, существование которого основано на языковой модели LaMDA, вызывает вопросы о происхождении его обучающих наборов данных, известных как Infiniset. Тайна, окружающая источник и получение этих наборов данных, побуждает нас задуматься об этичности разработки ИИ и прозрачности технологических компаний.

В то время как исследовательский документ LaMDA от 2022 года предоставляет информацию о составе наборов данных, используемых для обучения языковой модели, всего 25% можно отследить до общедоступных источников, таких как просканированный веб-контент и Википедия. Это поднимает дополнительные вопросы о происхождении и качестве оставшихся 75% данных, используемых для обучения системы ИИ.

Наборы данных Google

Набор данных Google Infiniset является источником философских размышлений, особенно в отношении его применения в технологии искусственного интеллекта. Языковая модель LaMDA, на которой работает Google Bard, была обучена на этом наборе данных с целью улучшения ее способности участвовать в диалоге.

Выбор в пользу использования Infiniset, смеси избранного интернет-контента, поднимает вопросы о мотивах и предубеждениях, лежащих в основе процесса выбора, а также о влиянии этого выбора на обучение системы ИИ. Он предлагает нам задуматься об ответственности технологических компаний за формирование будущего ИИ, а также об этических соображениях, которые необходимо учитывать при разработке и обучении этих систем.

Исследовательский документ LaMDA (PDF) объясняет, почему был выбран такой состав контента:

Исследовательская работа по LaMDA, языковой модели, лежащей в основе Google Bard, вводит понятие «диалог» и «диалоги» в области компьютерных наук. Эта терминология предлагает нам задуматься о роли систем ИИ в человеческом общении и потенциальном влиянии этих систем на наше общество и отношения.

Языковая модель была предварительно обучена на обширном корпусе «данных общедоступных диалогов и веб-текста», всего 1,56 триллиона слов. Этот ошеломляющий объем информации служит напоминанием о силе и влиянии технологии ИИ и побуждает нас задуматься об ответственности, связанной с разработкой этих систем. Это поднимает вопросы о последствиях обучения ИИ такому огромному количеству данных, а также о потенциальных предубеждениях и неточностях, которые могут быть присущи процессу обучения.

Набор данных состоит из следующих компонентов:

  • 12,5% данных на основе C4
  • 12,5% англоязычная Википедия
  • 12,5% документов с кодом из веб-сайтов вопросов и ответов по программированию, руководств и т. д.
  • 6,25% веб-документов на английском языке
  • 6,25% веб-документов не на английском языке
  • 50% диалогов данные с публичных форумов

Происхождение большинства данных, используемых для обучения LaMDA, языковой модели Google Bard, остается тайной. Только 25% данных взяты из названных источников, в частности из набора данных C4 и Википедии. Остальные 75% данных в наборе данных Infinite состоят из слов, взятых из Интернета.

В исследовательской статье нет конкретной информации о методе, использованном для получения этих данных, конкретных веб-сайтах, с которых они были получены, или каких-либо других подробностей об извлеченном контенте. Google просто предоставляет обобщенные описания, такие как «веб-документы не на английском языке».

Это отсутствие прозрачности в источнике данных привело к тому, что его назвали «темным», что означает неясный или неопределенный. Хотя есть подсказки, которые могут дать общее представление о веб-сайтах, включенных в скопированные данные, это невозможно узнать наверняка.

Набор данных C4

C4 — это набор данных, разработанный Google в 2020 году. C4 означает «Colossal Clean Crawled Corpus».

Этот набор данных основан на данных Common Crawl, который является набором данных с открытым исходным кодом.

Следующие статистические данные о наборе данных C4 взяты из второй исследовательской работы, ссылка на которую приведена выше.

В число 25 лучших веб-сайтов (по количеству токенов) в C4 входят:

  1. Patents.google.com
  2. en.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. Journals.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. Patents.com
  11. www.scribd.com
  12. www.washingtonpost.com
  13. www.fool.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kickstarter.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

Google не указывает, какие сайты входят в категорию Сайты вопросов и ответов по программированию, которая составляет 12,5 % набора данных, на котором обучалась LaMDA.

Так что мы можем только догадываться.

Stack Overflow и Reddit кажутся очевидными вариантами, тем более что они были включены в набор данных MassiveWeb.

Но следующие два не объясняются:

В исследовательском документе представлена ​​лишь ограниченная информация с общим описанием 13% сайтов, включенных в базу данных, как «веб-страницы на английском и других языках». Эта скудная информация служит напоминанием о сложностях и проблемах, связанных с разработкой систем ИИ.

Это побуждает нас задуматься об этических и философских последствиях обучения систем ИИ на больших объемах данных, а также об ответственности, связанной с этими усилиями. Расплывчатость информации, предоставленной Google относительно источника обучающих данных, вызывает вопросы о точности, беспристрастности и прозрачности создаваемых нами систем искусственного интеллекта.

Должен ли Google быть прозрачным в отношении наборов данных

Использование веб-сайтов для обучения систем искусственного интеллекта вызвало обеспокоенность у издателей, которые опасаются, что их сайты могут устареть. Хотя обоснованность этих опасений еще предстоит определить, они вызывают законное беспокойство среди издателей и тех, кто занимается поисковым маркетингом.

Учитывая это, растут споры о том, должен ли Google быть более прозрачным в отношении наборов данных, используемых для обучения систем ИИ, и окажут ли такие системы долгосрочное влияние на будущее Интернета.