Наборы данных используются в процессе машинного обучения для изучения интеллектуального анализа текста, классификации текста и категоризации продуктов. Они являются неотъемлемой и важной частью машинного обучения и обработки естественного языка (NLP). Проще говоря, наборы данных — это железная дорога, по которой эффективно ездят алгоритмы машинного обучения.

Здесь вы можете прекратить поиск качественных обучающих данных, поскольку мы представили здесь более 40 наборов данных с открытым исходным кодом, которые можно использовать в ваших проектах машинного обучения. Перед агрегированием этих наборов данных важно обратить внимание на две важные вещи. Во-первых, убедитесь, что данные наборы данных не расширены и их не требуется очищать. Во-вторых, эти наборы данных доступны с меньшим количеством строк и столбцов, что занимает меньше времени и с ними легче работать.

5 основных наборов данных общего характера

Пять лет назад было очень сложно найти наборы данных для проектов по машинному обучению и науке о данных. Но в настоящее время становится легко найти наборы данных, которые можно использовать для различных целей. Ниже приведены лучшие и наиболее широко используемые специализированные наборы данных, используемые для ваших проектов машинного обучения.

Kaggle: это сообщество наборов данных, которое имеет широкий спектр инструментов и ресурсов, используемых для проектов машинного обучения, связанных со спортом, здоровьем, путешествиями, едой, образованием и так далее. Он включает в себя наборы данных, независимо предоставленные глобальными разработчиками для проектов машинного обучения.

Репозиторий машинного обучения UCI: он содержит наборы данных, которые используются для проектов машинного обучения, и пользователь должен проверять их на предмет качества, поскольку чистота может варьироваться от набора данных к набору данных, поскольку большинство наборов данных вносятся пользователями. Это позволяет пользователям загружать данные без регистрации.

Поиск наборов данных Google: он состоит из 25 миллионов наборов данных, собранных со всего мира. Когда пользователь будет размещать наборы данных на сайте издателя, государственном домене или в исследовательском блоге, их легко найдут глобальные пользователи.

AWS Open Data Registry: Amazon также имеет открытый файл cookie с набором данных, и лучшая функция AWS Open Data Registry — это обратная связь с пользователем, которая позволяет пользователям добавлять или обновлять наборы данных в соответствии с их использованием. Опыт работы с наборами данных AWS приветствуется на рынке труда.

Наборы данных машинного обучения Википедии: В Википедии также есть широкий спектр наборов данных, используемых для проектов машинного обучения, таких как сигнал, звук, изображение, текст и т. д.

Наборы данных для государственных и общественных нужд

Ниже приведены порталы государственных данных, на которых можно предоставить наборы демографических данных для ваших алгоритмов машинного обучения. Это модели машинного обучения, обученные на основе общедоступных правительственных данных, которые могут использоваться политиками для анализа тенденций для принятия более эффективных политических решений.

Данные США: он предоставляет мощные общедоступные данные США, а доступная информация легкодоступна, что упрощает выбор правильного для проекта машинного обучения.

Портал открытых данных ЕС: он предоставляет миллион наборов данных из более чем 36 европейских стран, предлагаемых авторитетными учреждениями ЕС. Этот портал имеет простой в использовании интерфейс, позволяющий пользователям искать общедоступные наборы данных для использования в различных проектах машинного обучения, таких как энергетика, спорт, экономика, наука и исследования.

Данные о здравоохранении в США: у него есть множество наборов данных для проектов машинного обучения, связанных со здравоохранением.

Служба данных Великобритании: это самая большая коллекция социальных, демографических и экономических данных в Соединенном Королевстве.

Data.gov.in: он содержит широкий спектр наборов данных, используемых для проектов машинного обучения, связанных с туризмом, транспортом, статистикой, социальным развитием, а также наукой и технологиями правительства Индии.

Наборы данных по финансам и экономике

Финансовый сектор растет экспоненциально благодаря совершенствованию технологий машинного обучения. Финансы и экономика являются основной областью, в которой проекты машинного обучения используются для улучшения с тщательным управлением. Алгоритмы машинного обучения используются для управления ценами на акции, сделками и прогнозами для пользователей по всему миру. Ниже приведены популярные порталы наборов данных, которые предоставляют финансовые и экономические наборы данных.

Открытые данные Всемирного банка: они будут охватывать демографические данные населения с наибольшим количеством показателей экономики и развития в мире.

Данные МВФ: Международный валютный фонд — это портал, который очень тщательно отслеживает записи, предоставляя информацию о резервах иностранной валюты, ценах на сырьевые товары, результатах инвестиций, международных финансах и ставках долга стран.

Google Trends: предоставляет пользователю возможность анализировать всю поисковую деятельность в Интернете, предлагая разнообразные истории и популярные экономические новости, происходящие по всему миру.

Financial Times Market Data: Это очень полезный портал, предоставляющий текущую информацию о товарах и валютных биржах на мировых рынках.

Американская экономическая ассоциация: это фантастический источник макроэкономических данных США.

Наборы данных изображений для компьютерного зрения

Ниже приведены наборы данных, используемые для обучения приложений машинного обучения на основе компьютерного зрения, таких как распознавание лиц, автономные транспортные средства и технологии обработки медицинских изображений.

VisualQA: он содержит сложные вопросы о более чем 2 65 000 изображений, и это полезный набор данных, если вы хорошо разбираетесь в технологиях зрения и языка.

Labelme: он содержит наборы данных, которые уже интерпретированы и легко доступны для использования в любой разработке приложений компьютерного зрения.

ImageNet: это простой набор данных машинного обучения для создания новых алгоритмов, организованный в соответствии с иерархией WordNet, что означает, что в каждом узле есть множество изображений.

Visual Genome: содержит более 100 000 высокодетализированных изображений с подписями для создания проектов машинного обучения.

Открытые изображения Google: у него почти 9 миллионов URL-адресов изображений, и они доступны в 6000 категориях.

CitySpaces: содержит более 5000 высококачественных кадров с большим набором из 20 000 аннотированных кадров.

IMDB-Wiki: содержит около 500 000 изображений лиц, собранных как с IMDB, так и с Википедии.

Набор данных MPII Human Pose: это полезный набор данных, который содержит 25 000 изображений суставов тела 40 000 человек по всему миру. Это идеальный набор данных для разработки проектов машинного обучения на основе оценки позы человека.

Наборы данных анализа тональности

Ниже приведен большой и очень специфический набор данных, который помогает улучшить алгоритм анализа настроений безграничными способами и подходами.

Данные о продуктах Amazon: 142,8 миллиона наборов данных отзывов Amazon будут представлены в этом наборе данных SA, и они объединены в период с 1996 по 2014 год на Amazon.

IMDB Sentiment: это традиционный набор данных, идеально подходящий для бинарной классификации настроений, и в нем представлено более 25000 обзоров фильмов.

Словарь настроений Lexicoder: он создан для Lexicoder, который помогает в автоматическом кодировании настроений при освещении новостей и выступлений в законодательных органах.

Набор данных многодоменного анализа настроений: это сокровище для разработчиков, поскольку они могут легко найти положительные и отрицательные отзывы о продуктах Amazon.

Отношение к авиакомпаниям США в Twitter: Twitter использует данные об авиакомпаниях США, которые классифицируются на основе классов настроений, таких как положительные, отрицательные или нейтральные.

Stanford Sentiment Treebank: он содержит более 10000 HTML-файлов Rotten Tomatoes с масштабированием от 1 до 25 для аннотаций настроений.

Набор данных обзоров Opin-Rank: это лучший набор данных, используемый для наборов данных об автомобилях, и он содержит широкий спектр обзоров моделей автомобилей, выпущенных в период с 2007 по 2009 год.

Наборы данных НЛП

Ниже приведен список наборов данных обработки естественного языка, используемых для различных проектов машинного обучения, которые содержат распознавание голоса и чат-боты.

База спама UCI: это набор данных, используемый для идеальной фильтрации спама.

Набор данных Enron: он содержит организованные данные электронной почты высшего руководства.

Amazon Reviews: это еще одно сокровище, содержащее 35 миллионов обзоров Amazon с обзорами рекомендуемых продуктов за 18 лет и полезной информацией, доступной в текстовом виде.

Yelp Reviews: он содержит 5 миллионов отзывов, собранных на Yelp и доступных в открытом наборе данных.

Google Books Ngrams: это библиотека слов для разработки алгоритмов на основе НЛП.

Blogger Corpus: более 600 тысяч блогов с 200 упоминаниями наиболее распространенных английских слов.

Данные о ссылках на Википедию: содержит более 1,9 миллиарда слов и 4 миллиона статей, содержащих целые тексты Википедии.

Наборы данных автономных транспортных средств

Ниже приведены фантастические наборы данных, используемые для интерпретации окружения при разработке автономных транспортных средств, чтобы реагировать в зависимости от ситуации.

LISA (Лаборатория интеллектуальных и безопасных автомобилей, наборы данных Калифорнийского университета в Сан-Диего): этот набор данных содержит информацию о дорожных знаках, светофорах, обнаружении транспортных средств и схемах траектории для использования при разработке автономных транспортных средств.

Роботизированный автомобиль Оксфорда: у него есть 100 повторений одного маршрута, которые собираются в разное время дня, погоду и условия вождения.

Baidu Apolloscapes: это набор данных, содержащий 26 различных семантических правил, включая пешеходов, уличные фонари, велосипеды, автомобили, здания и так далее.

PandaSet: этот набор данных используется для работы с расширенным автономным вождением с использованием исследований и разработок машинного обучения. Он содержит более 48 000 изображений с камер, которые имеют 16 000 лидарных разверток и более 100 сцен, более 28 классификаций аннотаций и 37 меток семантических сегментов для широкого использования в проектах машинного обучения.

Open Images V5: этот набор данных содержит более 9 миллионов изображений, которые были аннотированы и помечены для тысяч разделов объектов.

Открытый набор данных Waymo: он содержит высококачественный мультимодальный датчик, собранный с беспилотных транспортных средств Waymo в самых разных условиях.

Заключение

Эта коллекция, содержащая популярные наборы данных с открытым исходным кодом, будет полезна учащимся для практики проектов машинного обучения, таких как компьютерное зрение, интеллектуальный анализ данных, анализ данных, визуализация данных, правительственные проекты, обработка естественного языка, разработка финансовых приложений и разработка приложений для автономных транспортных средств. Изучите Лучшее обучение машинному обучению в Ченнаи в Softlogic Systems, чтобы получить полное практическое представление о процессах машинного обучения.