Мой опыт стажировки по науке о данных от Oasis Infobyte

Я К. Шиватмика,

Я пишу этот блог, чтобы рассказать о своем опыте стажировки по науке о данных в Oasis Infobyte, который проводится с мая 2023 года.

Я хотел бы выразить благодарность команде сообщества Oasis Infobyte за предоставленную мне возможность развивать свои способности и участвовать в таких замечательных проектах.

Как стажер по науке о данных в Oasis Infobyte, у меня была возможность получить практический опыт в области науки о данных, работая над реальными проектами. Мое время в Oasis Infobyte было действительно полезным и полезным опытом, который дал мне прочную основу для моей будущей карьеры.

Чтобы пройти эту стажировку, мы должны выполнить 3 задания разного уровня.

Здесь я упомянул свои задачи и навыки, которые я получил, выполняя эти задачи.

Задание 1: КЛАССИФИКАЦИЯ ЦВЕТКОВ ИРИСА

Цветок ириса имеет три вида; setosa, versicolor и virginica, различающиеся размерами. Теперь предположим, что у вас есть измерения цветов ириса в соответствии с их видами, и здесь ваша задача состоит в том, чтобы обучить модель машинного обучения, которая может учиться на основе
измерений видов ирисов и классифицировать их.

GitHubRepository: https://github.com/shivathmikakurva/OIBSIP/tree/main/TASK%201

Ссылка на видео:https://www.linkedin.com/feed/update/urn:li:activity:7064549160485613568?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity %3A7064549160485613568%29

Язык: Python

IDE: Блокнот Jupyter

Задача 2: Прогноз уровня безработицы

Проект, над которым я работал, назывался «Прогнозирование уровня безработицы». Набор данных состоял из уровня безработицы в ИНДИИ в 2020 году. Цель проекта состояла в том, чтобы построить модель, которая могла бы предсказать уровень безработицы в 2023 году.

Репозиторий GitHub: https://github.com/shivathmikakurva/OIBSIP/tree/main/TASK%202

Ссылка на видео: https://www.linkedin.com/feed/update/urn:li:activity:7064550853096968193?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity %3A7064550853096968193%29

Язык: Python

IDE: Блокнот Jupyter

Вывод:

В этом посте мы рассмотрели, как можно использовать машинное обучение и визуализацию данных для прогнозирования уровня безработицы и получения информации о рынке труда. Собирая и предварительно обрабатывая данные, визуализируя взаимосвязи между переменными и применяя алгоритмы машинного обучения, мы можем принимать более обоснованные решения об экономической политике и управлении персоналом.

Задача 3. Обнаружение спама в электронной почте

Обнаружение спама в электронной почте — это процесс выявления и классификации нежелательных или незапрашиваемых электронных писем, широко известных как спам, из законных электронных писем. Это важная задача в системах фильтрации электронной почты, поскольку она помогает пользователям расставлять приоритеты и эффективно управлять входящей электронной почтой. Цель состоит в том, чтобы автоматически определить, является ли электронное письмо спамом, на основе различных функций, извлеченных из содержимого электронной почты.

Репозиторий GitHub: https://github.com/shivathmikakurva/OIBSIP/tree/main/TASK%204

Ссылка на видео: https://www.linkedin.com/feed/update/urn:li:activity:7064553577649745920?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity %3A7064553577649745920%29

Язык: Python

IDE: Блокнот Jupyter

Вывод:

Я использовал R2, RFE, GBR для построения модели. Я начал с очистки данных и удаления всех отсутствующих значений. Затем я разделил данные на наборы для обучения и тестирования. После обучения модели я оценил ее работу на тестовом наборе. Точность модели была равна R2:0,838, RFE: 0,909, GBR: 0,9071, что указывает на то, что она хорошо подходит для данных.

Наконец, еще раз спасибо @Oasis Infobyte за прекрасную возможность получить практические навыки.

Посетите https://oasisinfobyte.com/ для получения дополнительной информации.

Спасибо!!