Хороший набор данных для предварительной обработки

Я зачислен на курс бакалавриата по интеллектуальному анализу данных, и у меня есть задание написать код препроцессора интеллектуального анализа данных. У меня есть свобода выбора языка программирования и набора данных. Мне было интересно, может ли кто-нибудь предложить хороший набор данных для использования. Я просмотрел репозиторий UCI и нашел еще много подобных ресурсов. . Но, будучи новичком, я не уверен, какой набор данных будет хорошим выбором. Препроцессор должен иметь дело со следующими вещами:

  • Data cleaning
    • Missing Values
    • Ошибки
    • Выбросы
    • нормализация
    • Дедупликация
  • Data Reduction
    • Sampling Techniques
    • Уменьшение размерности

Какие свойства следует учитывать при выборе набора данных? Какой-нибудь конкретный набор данных вы могли бы предложить?


person pcx    schedule 31.10.2011    source источник


Ответы (1)


Вы ответили на свой вопрос. Выберите список набора данных со свойствами, которые вы упомянули, поскольку репозиторий UCI классифицировал набор данных. Вы можете выбрать любого, чтобы начать играть с ним.

Итак, для начала, если бы я был на вашем месте, я бы действовал поэтапно, чтобы понять, как выглядит каждый из них и его влияние на производительность классификатора, и выбрать некоторые из популярных наборов данных, поскольку они используются в качестве эталонный набор данных в большей части исследовательской работы. Многие из тех, что вы перечислили, являются отдельными проблемами машинного обучения, над которыми проводится множество исследований.

Я бы начал с чего-то вроде этого:
для отсутствующих значений: Iris, Voting,Health Disease
для дубликата:921 810 наборов данных песен (я думаю, не из UCI)< /em>
Нормализация: любой набор данных с непрерывными значениями с различным диапазоном признаков.
Метод выборки: Pima
Уменьшение размерности: Swiss Roll < бр/>

Кроме того, еще одним лучшим подходом к поиску набора данных будет ссылка на некоторые из соответствующих публикаций. Например, для уменьшения размерности вы можете просмотреть статьи PCA, ISOMAP и т. д., для выборки см. статью SMOTE и т. д. и посмотреть, какие типы данных они используют для своих экспериментов. и действовать соответственно.

person iinception    schedule 01.11.2011
comment
Мне было интересно, смогу ли я найти единый набор данных, который будет работать для всех этих, но в любом случае это был долгий путь. Большое спасибо за предложения, рассмотрим их. - person pcx; 02.11.2011