Привет, читатель, это моя история о том, как я, будучи инженером-механиком, переключил свое внимание с двигателя внутреннего сгорания на pd.read_parquet. Короткий рассказ — обязательно к прочтению новичкам.

История начинается с моего до четвертого года. Я только что начал свою стажировку в IIT Ropar, где мы вместе строим недорогую холодильную систему. Моя задача состоит в том, чтобы получить доступные на рынке данные, использовать их, проанализировать и повторить этот цикл для каждого компонента и даже опубликованной статьи. И вот как я начинаю свое путешествие по анализу данных. От использования компьютера третьего класса для импорта данных в мой Excel или использования какого-то питона для их очистки, а затем перехода туда и сюда, чтобы узнать, как делать все, что нужно для очистки и анализа. Я не знаю о референции, но, безусловно, мне нравится то, что я делаю. Стажировка прошла хорошо, мы реально строим что-то презентабельное и востребованное.

Перенесемся ко времени моего поступления в колледж, до сих пор я не знаком с пандами, оставляя sklearn в стороне. Бум ИИ (2022 г.), и я изучаю свою «дорожную карту аналитика данных» в Интернете. В одном я уверен: все сводилось к SQL. Я начал изучать SQL, что в конечном итоге сильно изменило правила игры во время собеседований по приему на работу, и я получил работу стажера в DS.

Большие данные? что это такое?

писпарк?? нет read_csv("abc.csv") и что такое spark.read.parquet("s3://….")

Конечно, здесь появляется настоящая наука о данных с миллионами данных для анализа. На работе я начал каждый день прислушиваться к чему-то новому

  1. SQL на Python
  2. Python для панд
  3. Панды для pyspark
  4. специальный анализ для построения модели
  5. случайный лес для xgboost
  6. случайный поиск в сетке поиск в pycaret
  7. и бездна обучения

Я проложил свой путь, постоянно учась и применяя его. Взяв статистику за основу. Я прогрессировал.