КАК ПОЛУЧИТЬ И МЕТКИРОВАТЬ НАБОР ДАННЫХ ДЛЯ ОБУЧЕНИЯ МОДЕЛЕЙ МО

Поиск и маркировка наборов данных для обучения моделей машинного обучения могут быть затруднены. Вот несколько способов, которыми вы могли бы получить большой объем данных и методы маркировки, которые соответствовали бы вашим потребностям. Наслаждаться!

ПОЛУЧЕНИЕ НАБОРОВ ДАННЫХ ML

Чтобы разработать надежную модель машинного обучения, необходимо большое количество данных для получения желаемых результатов. Поиск такого большого объема данных для обучения модели машинного обучения может быть пугающим и трудным, особенно если учитывать этические последствия использования потребительских и (или) общедоступных данных. О том, насколько этичным должен быть специалист по данным, вы можете прочитать здесь. Тем не менее, есть общедоступные наборы данных, которые специалисты по данным могут использовать для открытых и частных задач. В зависимости от задач, которые вы хотите выполнить с этим набором данных, существуют различные методы поиска наборов данных для обучения моделей машинного обучения. Некоторые методы обучения моделей машинного обучения включают:

Краудсорсинг

Краудсорсинг наборов данных для проектов машинного обучения предполагает получение нужного количества наборов данных, необходимых для построения модели машинного обучения, за счет вклада большой группы людей, обычно из интернет-сообщества. Краудсорсинг наборов данных для машинного обучения отлично подходит, когда нужны огромные данные или требуется разнообразие в наборе данных. Такие платформы, как Appen, SquadAI, Upwork, ScaleAI, ClickWorker и т. д., помогают организациям или частным лицам собирать наборы данных машинного обучения.

Веб-скрейпинг

Веб-скрапинг — это процесс извлечения полезных наборов данных из Интернета. Перед веб-скрапингом важно ознакомиться с положениями и условиями сайта (-ов), чтобы понять ограничения парсинга и то, как вы можете использовать набор данных. Популярные сайты для веб-скрейпинга наборов данных включают: Википедию для наборов данных НЛП, правительственные наборы данных, например (Сингапур, Европейский союз, Новая Зеландия, Австралия, Африка), поисковую систему Google (изображения), Youtube (видео) и т. д. , Вы можете проверить приведенный ниже код для веб-скрейпинга изображений из Google и видео с Youtube.

Каггл

Kaggle, известный как дом ученого данных, имеет более сотни наборов данных для работы, начиная от компьютерного зрения и НЛП, заканчивая наборами данных в виде таблиц и т. д. У каждого из этих наборов данных есть свои условия для работы с ними, поэтому прочитайте их, чтобы понять ограничения и использование наборов данных. Чтобы загрузить наборы данных из Kaggle с помощью API kaggle, воспользуйтесь приведенным ниже кодом.

Наборы данных Amazon (реестр наборов данных AWS)

Реестр наборов данных AWS — это открытый реестр наборов данных, доступный для всех. Вы можете получить набор данных из реестра, а также загрузить свой набор данных в реестр. Посетите страницу github набора данных AWS, чтобы узнать больше о добавлении набора данных в реестр наборов данных AWS.

Бинг API

Bing API — это простой и удобный способ получения набора данных компьютерного зрения с помощью Microsoft Bing для получения набора данных. Чтобы узнать, как использовать API Bing для получения набора данных из Bing, вы можете ознакомиться с хорошо составленным руководством здесь.

Другие платформы для получения набора данных ML включают:

База данных машинного обучения UCI
Рабочая область Yahoo
субреддит
Имиджнет
КОКО. и т. д.

ПРИМЕЧАНИЕ. Всегда старайтесь читать условия сайта (сайтов), с которого вы хотите получить набор данных.

Ниже приведен скрипт Python для веб-скрейпинга более тысячи изображений в поисковой системе Google:

Ниже приведен скрипт Python для веб-скрейпинга видео с YouTube:

Ниже приведен способ загрузки датасатов из Kaggle с помощью Kaggle API.

Сначала вы создаете токен API. Чтобы создать токен API, перейдите на домашнюю страницу kaggle и выберите страницу учетной записи, прокрутите вниз и в разделе API нажмите Создать API. Файл JSON будет загружен на ваш локальный компьютер. Следуйте приведенному ниже коду, чтобы загрузить набор данных

МАРКИРОВКА НАБОРА ДАННЫХ ML

При обучении пользовательских моделей машинного обучения важно пометить набор данных. После того, как набор данных был получен, важно пометить ваш набор данных. Маркировка может быть описана как использование инструментов маркировки для аннотирования или маркировки ваших данных или для отображения цели или истинной истины о том, что вы хотите, чтобы ваша модель машинного обучения предсказывала. Инструмент и метод маркировки, которые будут использоваться, будут зависеть от типа набора данных и метода обучения, используемого для набора данных.

Кроме того, важно понимать форматы и типы маркировки, которые хорошо подходят для вашего набора данных. Общие типы маркировки включают граничные рамки, используемые для обнаружения и локализации объектов, сегментация полигонов, используемая для сегментации экземпляров, семантическая сегментация, ключевые точки и Landmsrks, используемые для выражения лица, эмоций, частей человеческого тела и т. д. Наиболее распространенный формат маркировки включает формат COCO в JSON, Формат VIA обычно в XLM, Pascal VOC в XML, формат YOLO в TXT. Существуют различные инструменты маркировки, которые вы можете использовать для маркировки набора данных. Инструменты маркировки, такие как: MakeSense AI, LabelMe, VIA, Scalabel, LabelStudio и т. д.

Студия лейбла

Это определенно мой любимый инструмент для маркировки. Это надежный, отличный пользовательский интерфейс, но немного технический. Label studio — это гибкий инструмент для аннотации данных, который поддерживает маркировку различных типов данных, от аудио до изображений, временных рядов, текста и даже многодоменных типов данных, таких как OCR. Вы можете установить Label Studio со своего терминала с помощью команды:

pip установить -U лейбл-студия

Чтобы инициализировать новый проект на терминале

conda активировать лейбл-студию
label-studio init ‹имя-проекта›

Чтобы продолжить проект, на котором вы остановились

запуск лейбл-студии ‹имя-проекта›

Вы можете посмотреть это видео на YouTube о том, как маркировать свои наборы данных с помощью labelstudio здесь. Также ознакомьтесь с игровой площадкой labelstudio здесь, чтобы узнать больше о ее возможностях и начать ее использовать.

Аннотатор изображений VGG (VIA)

VIA — это простое и автономное программное обеспечение для ручной аннотации изображений, аудио и видео. Разработан Visual Geometry Group (VGG) и выпущен под лицензией BSD-2. VIA работает в веб-браузере и не требует установки или настройки. Полное программное обеспечение VIA умещается на одной автономной HTML-странице размером менее 400 килобайт, которая работает как автономное приложение. VIA — это проект с открытым исходным кодом, основанный исключительно на HTML, Javascript и CSS и не зависящий от внешних библиотек. Вы можете скачать исполняемый файл VGG16 здесь.

Вы можете ознакомиться с этим руководством здесь о том, как использовать VIA

Набор данных для маркировки также может быть предоставлен краудсорсингом путем доставки большим количеством людей и сторонними платформами, такими как Scale, Appen, Hive и т. Д. Для маркировки набора данных ML используются профессионалы. Если у вас много данных и вам нужны эксперты для их маркировки, вы обязательно можете рассмотреть возможность использования таких платформ.

ЗАКЛЮЧИТЕЛЬНОЕ ЗАМЕЧАНИЕ ПО МАРКИРОВКЕ

Хотя традиционные методы маркировки дороги и не на 100 % надежны, они иногда требуют, чтобы вы нанимали SME для помощи в маркировке этих данных, а получение набора качественных данных иногда может быть даже пугающим. Для решения этих проблем были приняты другие методы маркировки наборов данных ML. Были приняты такие методы, как слабый контроль и активное обучение. Хорошим примером платформы, которая позволяет маркировать и обучать модели ML со слабым контролем, является Snorkel Flow. Вы можете прочитать больше о слабом контроле и активном обучении.

ЭТОТ ПОСТ ЯВЛЯЕТСЯ ЧАСТЬЮ МОЕГО ПУТЕШЕСТВИЯ ML, ТАК ЧТО ОЖИДАЙТЕ БОЛЬШЕ!!