Уникальные наборы данных от микробиологии до спорта
Возможно, вы уже почувствовали легкое отвращение, когда увидели, как люди снова и снова используют одни и те же наборы данных.
Все хотят легкого. Новички используют такие наборы данных, как Titanic, Iris и Ames Housing Dataset, потому что они до глупости просты; большинство создателей курсов и блоггеров используют их, потому что они находятся всего в одном поиске Google (или даже добавлены в закладки).
Сегодня я решил поделиться списком из 17 наборов данных, которые я часами курировал для своих постов на Medium и своего собственного учебного пути. При правильном использовании они привнесут свежий взгляд в ваши проекты портфолио.
P.S. Я разделил их на регрессионные, бинарные и мультиклассовые наборы данных классификации. Пожалуйста :)
Наборы данных регрессии
1️. Цены на бриллианты и регрессия в каратах
Мой фаворит из этого списка — набор данных о бриллиантах. Он идеально подходит для практики (более 50 тысяч образцов) и имеет несколько целей, которые вы можете предсказать как регрессию или задачу классификации нескольких классов:
🎯 Цели: "карат" или "цена"
🔗 Ссылка: Kaggle
📦Размеры: (53940, 10)
⚙Отсутствующие значения: Нет
2️. Эпоха ракушек морского ушка
Это уникальный набор данных из области зоологии. Задача состоит в том, чтобы предсказать возраст раковин морского ушка (разновидность моллюска) с помощью нескольких физических измерений. Традиционно их возраст определяют, разрезая конус, окрашивая их и подсчитывая количество колец внутри скорлупы под микроскопом.
Для зоологов это может быть забавно, но для специалистов по данным не очень:
🎯 Цель: "Кольца"
🔗 Ссылка: Kaggle
📦Размеры: (4177, 9)
⚙Отсутствующие значения: Нет
3️. Продажа дома в округе Кинг
Это набор данных для тех, кто все еще интересуется регрессией цен на недвижимость и жилье:
🎯 Цель: "цена"
🔗 Ссылка: Kaggle
📦Размеры: (21613, 17)
⚙Отсутствующие значения: Да
4️. Смертность от рака
Этот набор данных предлагает вам найти уровень смертности от рака на душу населения (100 000) с использованием нескольких демографических переменных:
🎯 Цель: «TARGET_deathRate»
🔗 Ссылка: Data.world
📦Размеры: (3047, 33)
⚙Отсутствующие значения: Да
5️. Продолжительность жизни
Сколько проживет человек? Это один из самых долго остающихся без ответа вопросов в науке. Было проведено несколько исследований, чтобы понять человеческую жизнь и долголетие, и этот набор данных, предоставленный ВОЗ (Всемирная организация здравоохранения), является одним из них:
🎯 Цель: "Ожидаемая продолжительность жизни".
🔗 Ссылка: Kaggle
📦Размеры: (2938, 21)
⚙Отсутствующие значения: Да
6️. Цены на автомобили
Название говорит само за себя — предскажите цены на автомобили, используя такие переменные, как пробег, тип топлива, трансмиссия и несколько специфичных для предметной области функций. Это также отличный набор данных для прокачки ваших инженерных мускулов:
🎯 Цель: "продажная_цена"
🔗 Ссылка: Kaggle
📦Размеры: (8128, 12)
⚙Отсутствующие значения: Да
Бинарная классификация
7️. Статистика новичков НБА
Первый набор данных бинарной классификации в списке требует, чтобы вы предсказали, продержится ли баскетболист-новичок в лиге более 5 лет:
🎯 Цель: «TARGET_5Yrs»
🔗 Ссылка: Data.world
📦Размеры: (8128, 12)
⚙Отсутствующие значения: Да
8️. Прогноз инсульта
Другой набор медицинских данных просит вас предсказать, будет ли у пациента инсульт или нет, на основе его истории с интересными особенностями:
🎯 Цель: «инсульт»
🔗 Ссылка: Kaggle
📦Размеры: (5110, 11)
⚙Отсутствующие значения: Да
9️. Питьевая вода
Безопасная питьевая вода — это самое основное право человека и главный фактор, влияющий на здоровье. Используя этот набор данных, вы должны классифицировать водоемы на пригодные для питья (питьевые) и непригодные для питья, используя несколько химических свойств:
🎯 Цель: "Питьевые качества"
🔗 Ссылка: Kaggle
📦Размеры: (3276, 10)
⚙Отсутствующие значения: Да
10. Стабильность интеллектуальной сети
Это расширенная версия «Смоделированного набора данных по устойчивости электрических сетей», созданного Вадимом Арзамасовым. Он пожертвован UCI и доступен на Kaggle. Вы будете прогнозировать стабильность 4-узловых интеллектуальных энергосистем (что бы они ни значили):
🎯 Цель: "удар"
🔗 Ссылка: Kaggle
📦Размеры: (60000, 13)
⚙Отсутствующие значения: Нет
1️1. IBM HR-аналитика и убыль сотрудников
Этот вымышленный набор данных, созданный IBM, ставит перед вами задачу выяснить, какие факторы приводят к увольнению сотрудников (независимо от того, покинут ли они свою должность):
🎯 Цель: "Истощение"
🔗 Ссылка: Kaggle
📦Размеры: (1470, 35)
⚙Отсутствующие значения: Нет
1️2. Можно ли есть этот гриб?
Еще один уникальный набор данных — классификация грибов на съедобные и ядовитые. Это также представляет собой уникальную проблему — все функции категоричны:
🎯 Цель: «класс»
🔗 Ссылка: Kaggle
📦Размеры: (8124, 23)
⚙Отсутствующие значения: Да
1️3️. Аутентификация банкнот
Несмотря на то, что в этом датасете очень мало признаков, я хотел его включить, потому что задача действительно интересная — по физическим признакам банкнот вы должны классифицировать их на поддельные или оригинальные:
🎯 Цель: «класс»
🔗 Ссылка: Kaggle
📦Размеры: (1372, 5)
⚙Отсутствующие значения: Нет
1️4️. Набор данных о доходах взрослых
Предскажите, заработает ли человек в конечном итоге более 50 тысяч, используя такие факторы, как возраст, образование, происхождение, пол, семейное положение и т. д.:
🎯 Цель: "доход"
🔗 Ссылка: Kaggle
📦Размеры: (48842, 15)
⚙Отсутствующие значения: Да
Наборы данных классификации нескольких классов
1️5️. Классификация дрожжей
Этот набор данных даст вам небольшое представление о мире микробиологии. Перед вами стоит задача классифицировать гриб под названием дрожжи по видам:
🎯 Цель: class_protein_localization
🔗 Ссылка: OpenML
📦Размеры: (1484, 9)
⚙Отсутствующие значения: Нет
1️6️. Kaggle TPS май 2021 г.
Kaggle проводит ежемесячные соревнования под названием «Tabular Playground Series» с задачами от начального до среднего уровня сложности. Наиболее важным моментом является то, что новый синтетический набор данных значительного размера создается каждый месяц с использованием структуры CTGAN. Это из майского выпуска 2021 года.
🎯 Цель: «цель»
🔗 Ссылка: Kaggle
📦Размеры: (100000, 52)
⚙Отсутствующие значения: Нет
1️7️. Kaggle TPS июнь 2021 г.
Аналогичный набор данных с большим количеством функций и образцов:
🎯 Цель: «цель»
🔗 Ссылка: Kaggle
📦Размеры: (200000, 77)
⚙Отсутствующие значения: Нет
1️8️. Алмазы, опять же
Просто снова упомянем набор данных по бриллиантам, потому что он имеет три категориальные характеристики, которые сами по себе могут быть мультиклассовыми целями:
🎯 Цели: "огранка", "цвет", "четкость"
🔗 Ссылка: Kaggle
📦Размеры: (53940, 10)
⚙Отсутствующие значения: Нет
Найти хороший новый набор данных сложно, особенно если вы новичок. Я надеюсь, что упростил процесс и смог составить список, который вы можете добавить в закладки.
Спасибо за прочтение!
Понравилась эта статья и, скажем прямо, ее причудливый стиль написания? Представьте себе, что у вас есть доступ к десяткам таких же, написанных блестящим, обаятельным, остроумным автором (кстати, это я :).
Всего за 4,99$ членства вы получите доступ не только к моим историям, но и к сокровищнице знаний от лучших и самых ярких умов на Medium. А если вы воспользуетесь моей реферальной ссылкой, то получите мою сверхновую благодарность и виртуальную пятерку за поддержку моей работы.