Хороший набор данных для предварительной обработки

Я зачислен на курс бакалавриата по интеллектуальному анализу данных, и у меня есть задание написать код препроцессора интеллектуального анализа данных. У меня есть свобода выбора языка программирования и набора данных. Мне было интересно, может ли кто-нибудь предложить хороший набор данных для использования. Я просмотрел репозиторий UCI и нашел еще много подобных ресурсов. . Но, будучи новичком, я не уверен, какой набор данных будет хорошим выбором. Препроцессор должен иметь дело со следующими вещами:

Data cleaning
- Missing Values
- Ошибки
- Выбросы
- нормализация
- Дедупликация
Data Reduction
- Sampling Techniques
- Уменьшение размерности

Какие свойства следует учитывать при выборе набора данных? Какой-нибудь конкретный набор данных вы могли бы предложить?

machine-learning preprocessor data-mining

pcx 31.10.2011 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вы ответили на свой вопрос. Выберите список набора данных со свойствами, которые вы упомянули, поскольку репозиторий UCI классифицировал набор данных. Вы можете выбрать любого, чтобы начать играть с ним.

Итак, для начала, если бы я был на вашем месте, я бы действовал поэтапно, чтобы понять, как выглядит каждый из них и его влияние на производительность классификатора, и выбрать некоторые из популярных наборов данных, поскольку они используются в качестве эталонный набор данных в большей части исследовательской работы. Многие из тех, что вы перечислили, являются отдельными проблемами машинного обучения, над которыми проводится множество исследований.

Я бы начал с чего-то вроде этого:
для отсутствующих значений: Iris, Voting,Health Disease
для дубликата:921 810 наборов данных песен (я думаю, не из UCI)< /em>
Нормализация: любой набор данных с непрерывными значениями с различным диапазоном признаков.
Метод выборки: Pima
Уменьшение размерности: Swiss Roll < бр/>

Кроме того, еще одним лучшим подходом к поиску набора данных будет ссылка на некоторые из соответствующих публикаций. Например, для уменьшения размерности вы можете просмотреть статьи PCA, ISOMAP и т. д., для выборки см. статью SMOTE и т. д. и посмотреть, какие типы данных они используют для своих экспериментов. и действовать соответственно.

iinception 01.11.2011

comment

Мне было интересно, смогу ли я найти единый набор данных, который будет работать для всех этих, но в любом случае это был долгий путь. Большое спасибо за предложения, рассмотрим их. - pcx; 02.11.2011

Хороший набор данных для предварительной обработки

Ответы (1)

Вопросы по теме