Уникальные наборы данных от микробиологии до спорта

Возможно, вы уже почувствовали легкое отвращение, когда увидели, как люди снова и снова используют одни и те же наборы данных.

Все хотят легкого. Новички используют такие наборы данных, как Titanic, Iris и Ames Housing Dataset, потому что они до глупости просты; большинство создателей курсов и блоггеров используют их, потому что они находятся всего в одном поиске Google (или даже добавлены в закладки).

Сегодня я решил поделиться списком из 17 наборов данных, которые я часами курировал для своих постов на Medium и своего собственного учебного пути. При правильном использовании они привнесут свежий взгляд в ваши проекты портфолио.

P.S. Я разделил их на регрессионные, бинарные и мультиклассовые наборы данных классификации. Пожалуйста :)

Наборы данных регрессии

1️. Цены на бриллианты и регрессия в каратах

Мой фаворит из этого списка — набор данных о бриллиантах. Он идеально подходит для практики (более 50 тысяч образцов) и имеет несколько целей, которые вы можете предсказать как регрессию или задачу классификации нескольких классов:

🎯 Цели: "карат" или "цена"

🔗 Ссылка: Kaggle

📦Размеры: (53940, 10)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

2️. Эпоха ракушек морского ушка

Это уникальный набор данных из области зоологии. Задача состоит в том, чтобы предсказать возраст раковин морского ушка (разновидность моллюска) с помощью нескольких физических измерений. Традиционно их возраст определяют, разрезая конус, окрашивая их и подсчитывая количество колец внутри скорлупы под микроскопом.

Для зоологов это может быть забавно, но для специалистов по данным не очень:

🎯 Цель: "Кольца"

🔗 Ссылка: Kaggle

📦Размеры: (4177, 9)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

3️. Продажа дома в округе Кинг

Это набор данных для тех, кто все еще интересуется регрессией цен на недвижимость и жилье:

🎯 Цель: "цена"

🔗 Ссылка: Kaggle

📦Размеры: (21613, 17)

⚙Отсутствующие значения: Да

📚Базовый блокнот

4️. Смертность от рака

Этот набор данных предлагает вам найти уровень смертности от рака на душу населения (100 000) с использованием нескольких демографических переменных:

🎯 Цель: «TARGET_deathRate»

🔗 Ссылка: Data.world

📦Размеры: (3047, 33)

⚙Отсутствующие значения: Да

5️. Продолжительность жизни

Сколько проживет человек? Это один из самых долго остающихся без ответа вопросов в науке. Было проведено несколько исследований, чтобы понять человеческую жизнь и долголетие, и этот набор данных, предоставленный ВОЗ (Всемирная организация здравоохранения), является одним из них:

🎯 Цель: "Ожидаемая продолжительность жизни".

🔗 Ссылка: Kaggle

📦Размеры: (2938, 21)

⚙Отсутствующие значения: Да

📚Базовый блокнот

6️. Цены на автомобили

Название говорит само за себя — предскажите цены на автомобили, используя такие переменные, как пробег, тип топлива, трансмиссия и несколько специфичных для предметной области функций. Это также отличный набор данных для прокачки ваших инженерных мускулов:

🎯 Цель: "продажная_цена"

🔗 Ссылка: Kaggle

📦Размеры: (8128, 12)

⚙Отсутствующие значения: Да

📚Базовый блокнот

Бинарная классификация

7️. Статистика новичков НБА

Первый набор данных бинарной классификации в списке требует, чтобы вы предсказали, продержится ли баскетболист-новичок в лиге более 5 лет:

🎯 Цель: «TARGET_5Yrs»

🔗 Ссылка: Data.world

📦Размеры: (8128, 12)

⚙Отсутствующие значения: Да

📚Базовый блокнот

8️. Прогноз инсульта

Другой набор медицинских данных просит вас предсказать, будет ли у пациента инсульт или нет, на основе его истории с интересными особенностями:

🎯 Цель: «инсульт»

🔗 Ссылка: Kaggle

📦Размеры: (5110, 11)

⚙Отсутствующие значения: Да

📚Базовый блокнот

9️. Питьевая вода

Безопасная питьевая вода — это самое основное право человека и главный фактор, влияющий на здоровье. Используя этот набор данных, вы должны классифицировать водоемы на пригодные для питья (питьевые) и непригодные для питья, используя несколько химических свойств:

🎯 Цель: "Питьевые качества"

🔗 Ссылка: Kaggle

📦Размеры: (3276, 10)

⚙Отсутствующие значения: Да

📚Базовый блокнот

10. Стабильность интеллектуальной сети

Это расширенная версия «Смоделированного набора данных по устойчивости электрических сетей», созданного Вадимом Арзамасовым. Он пожертвован UCI и доступен на Kaggle. Вы будете прогнозировать стабильность 4-узловых интеллектуальных энергосистем (что бы они ни значили):

🎯 Цель: "удар"

🔗 Ссылка: Kaggle

📦Размеры: (60000, 13)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

1️1. IBM HR-аналитика и убыль сотрудников

Этот вымышленный набор данных, созданный IBM, ставит перед вами задачу выяснить, какие факторы приводят к увольнению сотрудников (независимо от того, покинут ли они свою должность):

🎯 Цель: "Истощение"

🔗 Ссылка: Kaggle

📦Размеры: (1470, 35)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

1️2. Можно ли есть этот гриб?

Еще один уникальный набор данных — классификация грибов на съедобные и ядовитые. Это также представляет собой уникальную проблему — все функции категоричны:

🎯 Цель: «класс»

🔗 Ссылка: Kaggle

📦Размеры: (8124, 23)

⚙Отсутствующие значения: Да

📚Базовый блокнот

1️3️. Аутентификация банкнот

Несмотря на то, что в этом датасете очень мало признаков, я хотел его включить, потому что задача действительно интересная — по физическим признакам банкнот вы должны классифицировать их на поддельные или оригинальные:

🎯 Цель: «класс»

🔗 Ссылка: Kaggle

📦Размеры: (1372, 5)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

1️4️. Набор данных о доходах взрослых

Предскажите, заработает ли человек в конечном итоге более 50 тысяч, используя такие факторы, как возраст, образование, происхождение, пол, семейное положение и т. д.:

🎯 Цель: "доход"

🔗 Ссылка: Kaggle

📦Размеры: (48842, 15)

⚙Отсутствующие значения: Да

📚Базовый блокнот

Наборы данных классификации нескольких классов

1️5️. Классификация дрожжей

Этот набор данных даст вам небольшое представление о мире микробиологии. Перед вами стоит задача классифицировать гриб под названием дрожжи по видам:

🎯 Цель: class_protein_localization

🔗 Ссылка: OpenML

📦Размеры: (1484, 9)

⚙Отсутствующие значения: Нет



1️6️. Kaggle TPS май 2021 г.

Kaggle проводит ежемесячные соревнования под названием «Tabular Playground Series» с задачами от начального до среднего уровня сложности. Наиболее важным моментом является то, что новый синтетический набор данных значительного размера создается каждый месяц с использованием структуры CTGAN. Это из майского выпуска 2021 года.

🎯 Цель: «цель»

🔗 Ссылка: Kaggle

📦Размеры: (100000, 52)

⚙Отсутствующие значения: Нет

📚Базовый блокнот



1️7️. Kaggle TPS июнь 2021 г.

Аналогичный набор данных с большим количеством функций и образцов:

🎯 Цель: «цель»

🔗 Ссылка: Kaggle

📦Размеры: (200000, 77)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

1️8️. Алмазы, опять же

Просто снова упомянем набор данных по бриллиантам, потому что он имеет три категориальные характеристики, которые сами по себе могут быть мультиклассовыми целями:

🎯 Цели: "огранка", "цвет", "четкость"

🔗 Ссылка: Kaggle

📦Размеры: (53940, 10)

⚙Отсутствующие значения: Нет

📚Базовый блокнот

Найти хороший новый набор данных сложно, особенно если вы новичок. Я надеюсь, что упростил процесс и смог составить список, который вы можете добавить в закладки.

Спасибо за прочтение!

Понравилась эта статья и, скажем прямо, ее причудливый стиль написания? Представьте себе, что у вас есть доступ к десяткам таких же, написанных блестящим, обаятельным, остроумным автором (кстати, это я :).

Всего за 4,99$ членства вы получите доступ не только к моим историям, но и к сокровищнице знаний от лучших и самых ярких умов на Medium. А если вы воспользуетесь моей реферальной ссылкой, то получите мою сверхновую благодарность и виртуальную пятерку за поддержку моей работы.