Что мы будем использовать для обучения алгоритмов?

Объяснение различных факторов, участвующих в сложном процессе получения данных для обучения алгоритмов машинного обучения, может быть сложным, но очень увлекательным. До запуска Dall·E, первого алгоритма генерации изображений, в январе 2021 года, компании, участвовавшие в его разработке, в основном делали то, что хотели, в своего рода среде Дальнего Запада, без явного законодательства или границ.

Учитывая, что веб-скрапинг в принципе является юридической практикой, любой желающий может копировать контент на общедоступных страницах, они собрали огромные коллекции помеченных изображений и текстов, которые они считали достаточно правильными, и скармливали их в нужные им базы данных. тренировать свои продукты. Прецеденты этого вопроса сбивали с толку: LinkedIn проиграла несколько дел, пытаясь помешать другим компаниям собирать данные из сети, но Facebook выиграла у Power Ventures, а деятельность Clearview вызвала осуждение. Тем не менее идея, хотя и подпадающая под интерпретацию судей, заключалась в том, что веб-скрапинг был инструментом, а не преступлением, и, как и в случае с любым другим инструментом, были разумные и неразумные способы его использования.

Затем такие компании, как OpenAI и другие, проникли в базы данных, такие как Getty Images, и получили в свои руки миллионы изображений с тегами. На всех них был водяной знак «Getty Images», который можно было удалить, только если вы заплатили за использование фотографии, но это не имело значения: изображение было достаточно заметным, а его теги позволяли алгоритму интерпретировать его.

Проблема начала привлекать внимание, когда пользователи Dall-E и других алгоритмов, таких как Stable Diffusion или Midjourney, начали шалить, прося изображения в стиле. Это казалось волшебством: если ваша подсказка запрашивала изображение в стиле определенного художника, алгоритм обращался к изображениям этого человека, и часто результат был настолько хорош, что выглядел как настоящий. Кроме того, некоторые алгоритмы во многих случаях доходили до того, что воспроизводили водяные знаки Getty Images: алгоритм был обучен такому количеству изображений с ними, что интерпретировал водяной знак как элемент, который должен появляться в его творениях. С текстами дела обстояли хуже: новейшие алгоритмы, такие как Клод, могут проглатывать целые книги за секунды, позволяя сразу переходить к письму, как это сделал бы автор, и потенциально раздражая большое количество авторов…

Что мы будем использовать для обучения алгоритмов?

Вопросы по теме