Я зачислен на курс бакалавриата по интеллектуальному анализу данных, и у меня есть задание написать код препроцессора интеллектуального анализа данных. У меня есть свобода выбора языка программирования и набора данных. Мне было интересно, может ли кто-нибудь предложить хороший набор данных для использования. Я просмотрел репозиторий UCI и нашел еще много подобных ресурсов. . Но, будучи новичком, я не уверен, какой набор данных будет хорошим выбором. Препроцессор должен иметь дело со следующими вещами:
- Data cleaning
- Missing Values
- Ошибки
- Выбросы
- нормализация
- Дедупликация
- Data Reduction
- Sampling Techniques
- Уменьшение размерности
Какие свойства следует учитывать при выборе набора данных? Какой-нибудь конкретный набор данных вы могли бы предложить?