На пути к науке о данных: мой год от нуля до одного в истории науки о данных

Привет, читатель, это моя история о том, как я, будучи инженером-механиком, переключил свое внимание с двигателя внутреннего сгорания на pd.read_parquet. Короткий рассказ — обязательно к прочтению новичкам.

История начинается с моего до четвертого года. Я только что начал свою стажировку в IIT Ropar, где мы вместе строим недорогую холодильную систему. Моя задача состоит в том, чтобы получить доступные на рынке данные, использовать их, проанализировать и повторить этот цикл для каждого компонента и даже опубликованной статьи. И вот как я начинаю свое путешествие по анализу данных. От использования компьютера третьего класса для импорта данных в мой Excel или использования какого-то питона для их очистки, а затем перехода туда и сюда, чтобы узнать, как делать все, что нужно для очистки и анализа. Я не знаю о референции, но, безусловно, мне нравится то, что я делаю. Стажировка прошла хорошо, мы реально строим что-то презентабельное и востребованное.

Перенесемся ко времени моего поступления в колледж, до сих пор я не знаком с пандами, оставляя sklearn в стороне. Бум ИИ (2022 г.), и я изучаю свою «дорожную карту аналитика данных» в Интернете. В одном я уверен: все сводилось к SQL. Я начал изучать SQL, что в конечном итоге сильно изменило правила игры во время собеседований по приему на работу, и я получил работу стажера в DS.

Большие данные? что это такое?

писпарк?? нет read_csv("abc.csv") и что такое spark.read.parquet("s3://….")

Конечно, здесь появляется настоящая наука о данных с миллионами данных для анализа. На работе я начал каждый день прислушиваться к чему-то новому

SQL на Python
Python для панд
Панды для pyspark
специальный анализ для построения модели
случайный лес для xgboost
случайный поиск в сетке поиск в pycaret
и бездна обучения

Я проложил свой путь, постоянно учась и применяя его. Взяв статистику за основу. Я прогрессировал.

На пути к науке о данных: мой год от нуля до одного в истории науки о данных

Вопросы по теме