На второй неделе нам дали задание провести исследовательский анализ данных (EDA) по двум хорошо известным наборам данных: Iris и Boston Housing. Будучи новичком в науке о данных, я использую Kaggle для изучения концепций, способов их применения и изучения наборов данных. Если вы также не знаете, с чего начать обучение, Kaggle — идеальное место для вас. Он также предоставляет множество конкурирующих возможностей для проверки ваших навыков с помощью дататонов и других испытаний.

Кроме того, я воспользовался помощью учебных пособий YouTube, чтобы помочь мне выполнить задание.

Третья неделя началась с того, что все мы (я и мои подопечные) представили нашу работу и обсудили наши выводы. Как было сказано в моем предыдущем посте, EDA может быть сложной задачей, потому что у вас есть много вариантов того, как вы хотите визуализировать свои данные. Главное – выбрать тот метод, который дает наибольший результат.

Переходя к следующему шагу, наш наставник Сурабхи дал нам краткое введение в машинное обучение. Это область исследования, которая дает компьютерам возможность учиться без явного программирования. Реализация модели машинного обучения довольно проста и может быть выполнена в несколько строк. Задача состоит в том, чтобы понять, как машина обучается. Математика обучения может быть очень сложной.

Сурабхи показал нам демонстрацию реализации модели машинного обучения путем реализации алгоритма дерева решений в наборе данных Iris. Мы обнаружили, что модель переоснащается, поэтому попытались повысить точность, изменив максимальную глубину дерева. Мы достигли точности 1,0 для обучающих данных, но не смогли добиться того же для тестовых данных.

На этой неделе наша задача — изучить любой алгоритм классификации, включая его реализацию и математику, лежащую в его основе.

Увидимся на следующей неделе!