10 лучших бесплатных источников наборов данных для ваших проектов по машинному обучению и науке о данных. 📊

◉ Kaggle

Kaggle – это онлайн-платформа для соревнований по науке о данных и машинному обучению. Он был основан в 2010 году и приобретен Google в 2017 году. Kaggle проводит множество соревнований и конкурсов, связанных с данными, в которых участники со всего мира соревнуются в создании лучших моделей машинного обучения для решения реальных задач.

Kaggle — это платформа, на которой энтузиасты науки о данных и машинного обучения могут находить, участвовать и проводить соревнования по науке о данных. Они также предоставляют доступ к широкому спектру наборов данных, многие из которых используются в их соревнованиях. Вот несколько примеров наборов данных, доступных на Kaggle:

Титаник. Этот набор данных включает информацию о пассажирах знаменитого кораблекрушения. Он часто используется в качестве вводного набора данных для студентов, изучающих науку о данных и машинное обучение.
Airbnb. Этот набор данных включает информацию о объявлениях, отзывах и бронированиях Airbnb в разных городах мира. Его можно использовать для исследования рынка, анализа цен и прогнозного моделирования.
Показатели мирового развития. Этот набор данных включает широкий спектр социально-экономических показателей для различных стран, таких как ВВП, население, образование и здоровье. Его можно использовать для экономических исследований, разработки политики и исследований в области развития.
Fashion-MNIST: этот набор данных включает коллекцию изображений моды, которые можно использовать для распознавания образов и проектов глубокого обучения.
Поездки на такси и Uber в Нью-Йорке. Этот набор данных включает данные о поездках на такси и Uber в Нью-Йорке. Его можно использовать для анализа транспорта, прогнозирования спроса и городского планирования.

Это всего лишь несколько примеров наборов данных, доступных на Kaggle. Веб-сайт предлагает широкий спектр наборов данных в различных форматах и из различных источников, включая академические исследования, государственные учреждения и частные компании. Пользователи могут искать и загружать наборы данных в соответствии со своими конкретными потребностями и требованиями.

Kaggle — популярная платформа среди специалистов по данным и энтузиастов машинного обучения, поскольку она дает прекрасную возможность оттачивать свои навыки, работать над реальными проблемами и, возможно, получать призы и признание за свою работу.

ссылка на наборы данных ️🌐

◉ Яркие данные

Bright Data, ранее известная как Luminati Networks, представляет собой компанию, которая предоставляет широкий спектр услуг по сбору данных и прокси для предприятий и исследователей. Они предлагают доступ к нескольким наборам данных, которые можно использовать для различных целей. Вот несколько примеров наборов данных, доступных на Bright Data:

Электронная коммерция. Bright Data предоставляет набор данных о более чем 200 миллионах списков продуктов электронной коммерции, включая названия продуктов, описания, цены и изображения. Этот набор данных можно использовать для исследования рынка, мониторинга цен и других приложений, связанных с электронной коммерцией.
Путешествия. Компания предлагает набор данных из более чем 40 миллионов веб-страниц, связанных с путешествиями, включая информацию о рейсах, отелях, аренде автомобилей и мероприятиях. Этот набор данных можно использовать для планирования поездок, анализа конкурентов и других приложений, связанных с поездками.
Социальные сети. Bright Data предлагает набор данных из более чем 2 миллиардов публикаций в социальных сетях с различных платформ, включая Twitter, Facebook и Instagram. Набор данных включает текст, изображения и метаданные и может использоваться для анализа настроений, мониторинга социальных сетей и других приложений, связанных с социальными сетями.
Проверка рекламы. Bright Data предоставляет набор данных из более чем 6 миллионов объявлений с различных платформ, включая Google, Facebook и Bing. Набор данных включает информацию о рекламном объявлении, месте размещения и таргетинге и может использоваться для проверки рекламы и анализа рекламы.

Это всего лишь несколько примеров наборов данных, доступных на Bright Data. Компания предоставляет индивидуальные услуги по сбору и очистке данных, что позволяет пользователям получать данные из различных источников в зависимости от их конкретных потребностей и требований.

ссылка на наборы данных 🌐

◉ Лаборатория V7

V7 Labs — компания, занимающаяся наукой о данных и искусственным интеллектом, которая предоставляет различные услуги, такие как прогнозная аналитика, визуализация данных и машинное обучение. Компания также предлагает доступ к нескольким наборам данных, которые можно использовать для исследований и анализа. Вот несколько примеров наборов данных, доступных на v7labs.com:

COVID-19: компания предоставляет набор данных о ежедневных случаях заражения COVID-19 и смертях по всему миру. Набор данных включает информацию о количестве подтвержденных случаев, смертей и выздоровлений, а также другие соответствующие данные, такие как частота тестирования и частота госпитализаций.
Цены на акции. V7 Labs предлагает набор данных об исторических ценах на акции различных компаний. Набор данных включает ежедневные цены на акции, объемы торгов и другие финансовые показатели, которые можно использовать для финансового анализа и прогнозирования.
Социальные сети. Компания предоставляет набор данных о публикациях в социальных сетях с различных платформ, включая Twitter, Facebook и Instagram. Набор данных включает текст, изображения и метаданные и может использоваться для анализа настроений, мониторинга социальных сетей и других приложений, связанных с социальными сетями.
Электронная коммерция: V7 Labs предлагает набор данных о транзакциях электронной коммерции от различных розничных продавцов. Набор данных включает информацию о ценах на продукты, истории покупок и другие важные данные, которые можно использовать для исследования рынка и других приложений, связанных с электронной коммерцией.

Это всего лишь несколько примеров наборов данных, доступных на v7labs.com. Компания предоставляет индивидуальные услуги по сбору и очистке данных, что позволяет пользователям получать данные из различных источников в зависимости от их конкретных потребностей и требований.

V7 поддерживает изображения, видео и текстовые данные. В V7 можно использовать следующие форматы файлов:JPG, PNG, MP4, MOV, AVI, BMP, SVS, TIFF, DCM, ZIP и многие другие.

ссылка на наборы данных 🌐

◉ Репозиторий машинного обучения UCI

Репозиторий машинного обучения UCI — это большая и разнообразная коллекция баз данных, теорий предметных областей и генераторов данных, которые широко используются исследователями и практиками в области машинного обучения. Он был создан Центром машинного обучения и интеллектуальных систем Калифорнийского университета в Ирвине (UCI) в 1987 году и с тех пор стал одним из самых популярных источников данных машинного обучения в мире.

Репозиторий содержит широкий спектр наборов данных, от небольших и простых наборов данных до больших и сложных, охватывающих различные области, такие как бизнес, медицина, инженерия, социальные науки и многое другое. Каждый набор данных поставляется с подробным описанием, включая источник данных, количество экземпляров, количество атрибутов и тип проблемы, которую он решает (например, классификация, регрессия, кластеризация и т. д.).

Исследователи и практики могут использовать репозиторий машинного обучения UCI для тестирования и оценки алгоритмов машинного обучения, разработки новых моделей и сравнения их производительности с существующими. Репозиторий находится в свободном доступе и может быть загружен с веб-сайта UCI.

ссылка на наборы данных 🌐

◉ Data.gov

Data.gov — это веб-сайт, предоставляющий доступ к тысячам наборов данных различных государственных учреждений США. Наборы данных охватывают широкий круг тем, включая сельское хозяйство, климат, энергетику, здравоохранение и транспорт. Вот несколько примеров наборов данных, доступных на Data.gov:

Климатические данные. Веб-сайт предлагает различные наборы данных, связанных с климатом, включая данные о температуре и осадках, данные о повышении уровня моря и данные о выбросах парниковых газов. Эти наборы данных можно использовать для моделирования климата, исследований и разработки политики.
Данные о здоровье. Data.gov предоставляет доступ к нескольким наборам данных, связанных со здоровьем, включая данные о качестве больниц, данные о поставщиках медицинских услуг и данные о результатах лечения. Эти наборы данных можно использовать для исследований в области здравоохранения, повышения качества и разработки политики.
Данные об образовании. Веб-сайт предлагает несколько наборов данных, связанных с образованием, включая данные об успеваемости в школе, процент выпускников и демографические данные учащихся. Эти наборы данных можно использовать для образовательных исследований, разработки политики и улучшения школ.
Транспортные данные. Data.gov предоставляет доступ к наборам данных, связанных с транспортом, включая данные об объеме трафика, расписании общественного транспорта и данные об авариях. Эти наборы данных можно использовать для планирования перевозок, анализа безопасности и разработки политики.

Это всего лишь несколько примеров наборов данных, доступных на Data.gov. Веб-сайт предоставляет удобный интерфейс, который позволяет пользователям искать и загружать наборы данных в соответствии со своими конкретными потребностями и требованиями. Наборы данных доступны в различных форматах, включая CSV, Excel и JSON.

ссылка на наборы данных 🌐

◉ Reddit

Reddit — это популярный веб-сайт для сбора и обсуждения социальных новостей, где пользователи могут отправлять контент и голосовать за представленные материалы. Reddit — это сокровищница данных с обширной коллекцией наборов данных, доступных для исследователей, разработчиков и энтузиастов данных.

На Reddit доступно несколько наборов данных, которые охватывают различные темы, в том числе:

Комментарии Reddit. Этот набор данных содержит большую коллекцию комментариев Reddit в формате JSON, охватывающую более десяти лет пользовательского контента. Набор данных включает метаданные, такие как автор, субреддит и время отправки, что делает его отличным ресурсом для анализа тенденций и моделей поведения пользователей на платформе.

Сообщения Reddit. Этот набор данных содержит набор сообщений Reddit в формате JSON, включая такие метаданные, как заголовок, автор, субреддит и время отправки. Набор данных полезен для анализа содержания сообщений на платформе, а также тенденций и закономерностей взаимодействия пользователей с различными сабреддитами.

Активность пользователей Reddit. Этот набор данных содержит информацию о действиях пользователей в Reddit, включая количество комментариев и сообщений, отправленных каждым пользователем, а также его оценку кармы. Набор данных полезен для анализа поведения пользователей на платформе, а также для выявления опытных пользователей и влиятельных участников.

Политические обсуждения на Reddit. Этот набор данных содержит набор сообщений и комментариев Reddit, связанных с политическими темами, включая президентские выборы в США 2016 года. Набор данных полезен для анализа политического дискурса на платформе и понимания того, как пользователи взаимодействуют с политическим контентом.

Это всего лишь несколько примеров из множества наборов данных, доступных на Reddit. Исследователи и энтузиасты данных также могут собирать данные Reddit с помощью Reddit API или инструментов веб-скрейпинга, чтобы создавать свои собственные наборы данных для анализа.

ссылка на наборы данных 🌐

◉ Куандл

Quandl — это платформа финансовых данных, которая обеспечивает доступ к широкому спектру наборов финансовых и экономических данных. Вот несколько примеров наборов данных, доступных на Quandl:

Цены на акции: Quandl предоставляет данные о ценах на акции для различных бирж, включая NASDAQ, NYSE и AMEX. Данные включают цены открытия, максимума, минимума и закрытия, а также объем и другие финансовые показатели.
Данные о фьючерсах: Quandl предоставляет данные о фьючерсах на различные товары, такие как золото, нефть и пшеница. Данные включают цены фьючерсов, объемы торгов и другие финансовые показатели.
Экономические данные: Quandl предоставляет экономические данные из различных источников, включая Федеральную резервную систему, Бюро трудовой статистики и Всемирный банк. Данные включают ВВП, инфляцию, безработицу и другие экономические показатели.
Альтернативные данные: Quandl предоставляет альтернативные данные для финансовой индустрии, такие как спутниковые снимки, данные социальных сетей и данные веб-трафика. Эти данные можно использовать для инвестиционных исследований, управления рисками и торговых стратегий.
Данные о криптовалюте: Quandl предоставляет данные для различных криптовалют, включая биткойн, Ethereum и Ripple. Данные включают исторические цены, объемы торгов и другие финансовые показатели.

Это всего лишь несколько примеров наборов данных, доступных на Quandl. Веб-сайт предлагает широкий спектр финансовых и экономических данных, а также инструменты и API для анализа и визуализации данных. Пользователи могут искать и загружать наборы данных в соответствии со своими конкретными потребностями и требованиями.

Quandl приобретена Nasdaq, и это платформа финансовых и экономических данных, которая за эти годы претерпела ряд изменений. В первом квартале 2013 года Quandl запустил миллион бесплатных и открытых наборов данных и выпустил универсальный API для всех своих данных. К четвертому кварталу 2014 года Quandl объявила о сборе средств серии A и запустила свою торговую площадку для премиальных данных, доходы от которой начали расти. У Quandl было более 200 000 пользователей на платформе, и к первому кварталу 2018 года это число выросло до более чем 300 000 после

ссылка на наборы данных 🌐

◉ VisualData.io

VisualData.io — это веб-сайт, предоставляющий доступ к разнообразным наборам данных, которые можно использовать для машинного обучения и анализа данных. Веб-сайт предлагает наборы данных в различных категориях, включая компьютерное зрение, обработку естественного языка, распознавание речи и многое другое.

Наборы данных на VisualData.io собраны из различных источников, включая академические исследования, отраслевые и правительственные данные. Веб-сайт имеет удобный интерфейс, который позволяет пользователям искать наборы данных по ключевому слову, категории или формату.

Помимо предоставления доступа к наборам данных, VisualData.io также предлагает исследователям платформу для размещения и обмена собственными наборами данных. Пользователи могут создать бесплатную учетную запись и загрузить свои наборы данных, сделав их доступными для более широкого сообщества.

VisualData.io предоставляет различные форматы данных, такие как CSV, JSON и файлы изображений. Некоторые из популярных наборов данных, доступных на платформе, включают ImageNet, COCO, Open Images и Common Crawl.

В целом, VisualData.io — ценный ресурс для исследователей и разработчиков, работающих с машинным обучением и анализом данных, предоставляющий легкий доступ к разнообразным и высококачественным наборам данных для различных приложений.

ссылка на наборы данных 🌐

◉ Гитхаб

GitHub — это популярная платформа для размещения и совместной работы над программными проектами, а также богатый источник наборов данных, которые можно использовать для исследований, образования и других приложений. Вот несколько примеров наборов данных, доступных на GitHub:

Архив GitHub: этот набор данных содержит записи обо всех общедоступных действиях на GitHub с 2011 года, включая информацию о репозиториях, пользователях и событиях, таких как коммиты и запросы на вытягивание. Набор данных доступен как в необработанном формате JSON, так и в обработанных таблицах SQL, что делает его ценным ресурсом для анализа тенденций в разработке программного обеспечения с открытым исходным кодом.
FARS.Набор данных Системы отчетности по анализу смертельных исходов (FARS) содержит подробную информацию о дорожно-транспортных происшествиях со смертельным исходом в Соединенных Штатах. Набор данных доступен в формате CSV и включает такие переменные, как место аварии, тип задействованного транспортного средства, а также возраст и пол водителей и пассажиров.
MNIST. Набор данных MNIST — это классический эталон для задач распознавания изображений. Он содержит большую коллекцию рукописных цифр, помеченных соответствующими числовыми значениями. Набор данных доступен в формате CSV и двоичном формате и использовался для разработки и оценки различных алгоритмов машинного обучения.
Открытые изображения. Набор данных Open Images содержит большую коллекцию аннотированных изображений, которые можно использовать для обнаружения объектов и задач классификации изображений. Набор данных включает более 9 миллионов изображений, которые были помечены более чем 6000 категориями объектов, что делает его ценным ресурсом для обучения и оценки моделей компьютерного зрения.

Это всего лишь несколько примеров из множества наборов данных, доступных на GitHub. Исследователи и энтузиасты данных также могут использовать GitHub для размещения и обмена своими наборами данных, что делает его ценным ресурсом для совместной работы и открытого обмена данными.

ссылка на наборы данных 🌐

◉ Microsoft Research Открытые данные

Microsoft Research Open Data предоставляет доступ к широкому спектру наборов данных, которые охватывают различные области, такие как компьютерное зрение, обработка естественного языка, здравоохранение, социальные науки и многое другое. Вот несколько примеров наборов данных, доступных в Microsoft Research Open Data:

MS MARCO: этот набор данных содержит более 1 миллиона реальных запросов и соответствующих результатов поиска из поисковой системы Bing. Он предназначен для обучения и оценки моделей обработки естественного языка для задач ответов на вопросы.
MS-COCO.Набор данных Microsoft Common Objects in Context (MS-COCO) содержит более 330 000 изображений с более чем 2,5 миллионами экземпляров объектов, помеченных ограничивающими рамками. Он широко используется для обучения и оценки моделей компьютерного зрения для задач обнаружения и сегментации объектов.
SNLI: набор данных Stanford Natural Language Inference (SNLI) содержит более 570 000 пар предложений, помеченных их логическими отношениями (присоединение, противоречие или нейтральность). Он обычно используется для обучения и оценки моделей обработки естественного языка для таких задач, как классификация предложений и вывод текста.
Прогноз заболевания. Этот набор данных содержит электронные медицинские карты пациентов из Фонда клиники Кливленда, который включает более 55 000 пациентов с различными заболеваниями. Набор данных предназначен для прогнозирования результатов лечения пациентов и разработки персонализированных медицинских вмешательств.

Это всего лишь несколько примеров из множества наборов данных, доступных в Microsoft Research Open Data. Платформа предназначена для поддержки открытого обмена данными и сотрудничества между исследователями и энтузиастами данных, предоставляя ценный ресурс для исследований и инноваций, основанных на данных.

ссылка на наборы данных 🌐

Спасибо, что прочитали мою статью о бесплатных источниках наборов данных. 💟

Присоединяйтесь ко мне: LinkedIn, Twitter 📌

10 лучших бесплатных источников наборов данных для ваших проектов по машинному обучению и науке о данных. 📊

◉ Kaggle

◉ Яркие данные

◉ Лаборатория V7

◉ Репозиторий машинного обучения UCI

◉ Data.gov

◉ Reddit

◉ Куандл

◉ VisualData.io

◉ Гитхаб

◉ Microsoft Research Открытые данные

Вопросы по теме