Мой опыт стажировки по науке о данных от Oasis Infobyte
Я К. Шиватмика,
Я пишу этот блог, чтобы рассказать о своем опыте стажировки по науке о данных в Oasis Infobyte, который проводится с мая 2023 года.
Я хотел бы выразить благодарность команде сообщества Oasis Infobyte за предоставленную мне возможность развивать свои способности и участвовать в таких замечательных проектах.
Как стажер по науке о данных в Oasis Infobyte, у меня была возможность получить практический опыт в области науки о данных, работая над реальными проектами. Мое время в Oasis Infobyte было действительно полезным и полезным опытом, который дал мне прочную основу для моей будущей карьеры.
Чтобы пройти эту стажировку, мы должны выполнить 3 задания разного уровня.
Здесь я упомянул свои задачи и навыки, которые я получил, выполняя эти задачи.
Задание 1: КЛАССИФИКАЦИЯ ЦВЕТКОВ ИРИСА
Цветок ириса имеет три вида; setosa, versicolor и virginica, различающиеся размерами. Теперь предположим, что у вас есть измерения цветов ириса в соответствии с их видами, и здесь ваша задача состоит в том, чтобы обучить модель машинного обучения, которая может учиться на основе
измерений видов ирисов и классифицировать их.
GitHubRepository: https://github.com/shivathmikakurva/OIBSIP/tree/main/TASK%201
Язык: Python
IDE: Блокнот Jupyter
Задача 2: Прогноз уровня безработицы
Проект, над которым я работал, назывался «Прогнозирование уровня безработицы». Набор данных состоял из уровня безработицы в ИНДИИ в 2020 году. Цель проекта состояла в том, чтобы построить модель, которая могла бы предсказать уровень безработицы в 2023 году.
Репозиторий GitHub: https://github.com/shivathmikakurva/OIBSIP/tree/main/TASK%202
Язык: Python
IDE: Блокнот Jupyter
Вывод:
В этом посте мы рассмотрели, как можно использовать машинное обучение и визуализацию данных для прогнозирования уровня безработицы и получения информации о рынке труда. Собирая и предварительно обрабатывая данные, визуализируя взаимосвязи между переменными и применяя алгоритмы машинного обучения, мы можем принимать более обоснованные решения об экономической политике и управлении персоналом.
Задача 3. Обнаружение спама в электронной почте
Обнаружение спама в электронной почте — это процесс выявления и классификации нежелательных или незапрашиваемых электронных писем, широко известных как спам, из законных электронных писем. Это важная задача в системах фильтрации электронной почты, поскольку она помогает пользователям расставлять приоритеты и эффективно управлять входящей электронной почтой. Цель состоит в том, чтобы автоматически определить, является ли электронное письмо спамом, на основе различных функций, извлеченных из содержимого электронной почты.
Репозиторий GitHub: https://github.com/shivathmikakurva/OIBSIP/tree/main/TASK%204
Язык: Python
IDE: Блокнот Jupyter
Вывод:
Я использовал R2, RFE, GBR для построения модели. Я начал с очистки данных и удаления всех отсутствующих значений. Затем я разделил данные на наборы для обучения и тестирования. После обучения модели я оценил ее работу на тестовом наборе. Точность модели была равна R2:0,838, RFE: 0,909, GBR: 0,9071, что указывает на то, что она хорошо подходит для данных.
Наконец, еще раз спасибо @Oasis Infobyte за прекрасную возможность получить практические навыки.
Посетите https://oasisinfobyte.com/ для получения дополнительной информации.
Спасибо!!