От проекта Kaggle до стажировки по науке о данных: раскрытие возможностей науки о данных

Пишу свою первую статью здесь на Medium и думаю о теме, связанной с моим путешествием в науке о данных. Поэтому я подумал, что нет ничего лучше, чем поделиться своим опытом прохождения стажировки по науке о данных. Так что, если вы интересуетесь наукой о данных и хотите узнать, как войти в отрасль, я считаю, что эта статья может стать для вас отправной точкой.

Поэтому, изучая NLP (обработку естественного языка), я начал искать идеи для проектов, и идея фильтрации спама в нашей электронной почте действительно заинтриговала меня, чтобы углубиться в это. Поэтому я создал рабочий процесс проекта, проверил наличие похожих проектов на платформах с открытым исходным кодом и начал писать код в своем блокноте Jupyter. Мне потребовалось 10 дней, чтобы завершить проект, несколько раз я просто хотел бросить этот проект на полпути или много раз после нескольких часов борьбы, чтобы определить проблему с моим кодом, незнакомец на StackOverflow оказался моим спасителем и помог мне понять что было причиной проблемы.

Я не буду много говорить о технических особенностях моего проекта, а больше о том, как представить его на интервью, поскольку вы можете гораздо лучше проектировать идеи и коды в Интернете, чем этот (я поделюсь ссылкой на свой проект на kaggle в конце этой статьи). ). Итак, начиная с первого и наиболее важного фактора, который превратил интервью в мою сторону, это рабочая демонстрация моего проекта. Объясняя свой проект после краткого изложения, я попросил интервью дать информацию с его стороны об одном спам-сообщении и одном не-спам-сообщении. за живую демонстрацию, которую он дал, и мой проект отобразил правильный вывод, которым он был действительно впечатлен, а затем я начал объяснять свою мотивацию для проекта, логику кода, результаты (accuracy_score 97% и precision_score 100%) и заканчивая проблемами Я столкнулся в этом проекте и как я их решил. Я предлагаю всем пойти в этом потоке, чтобы объяснить наш проект, чтобы дать максимальную ясность (точно так же, как вы объясняете это 15-летнему ребенку).

Еще один фактор, который помог мне, — это объяснить мой EDA (исследовательский анализ данных) с помощью некоторых визуализаций, и, честно говоря, мне проще объяснить изображения, чем код. Делимся некоторыми из них здесь, чтобы вы могли их увидеть.

Как я объяснил в начале, живая демонстрация проекта оказывается лучшей, когда интервьюер может взаимодействовать с вашим проектом. Вот краткий обзор живой демонстрации моего проекта, которую я сделал с помощью Streamlit, следуя руководству на YouTube:

Project Demo Live.mp4вот живая демонстрация моего проекта с вводом и прогнозируемым выводом ndrive.google.com

Надеюсь, вам понравилась эта статья, и, как и было обещано, вот ссылка на проект на kaggle.

https://www.kaggle.com/code/akshatrailaddha/sms-spam-classification-nlp-project

проголосуйте, если вы на kaggle. Ничего технического, просто небольшие кусочки из моего опыта интервью. Делитесь своими отзывами.

Спасибо!!!

От проекта Kaggle до стажировки по науке о данных: раскрытие возможностей науки о данных

Вопросы по теме