Привет, читатель, это моя история о том, как я, будучи инженером-механиком, переключил свое внимание с двигателя внутреннего сгорания на pd.read_parquet. Короткий рассказ — обязательно к прочтению новичкам.
История начинается с моего до четвертого года. Я только что начал свою стажировку в IIT Ropar, где мы вместе строим недорогую холодильную систему. Моя задача состоит в том, чтобы получить доступные на рынке данные, использовать их, проанализировать и повторить этот цикл для каждого компонента и даже опубликованной статьи. И вот как я начинаю свое путешествие по анализу данных. От использования компьютера третьего класса для импорта данных в мой Excel или использования какого-то питона для их очистки, а затем перехода туда и сюда, чтобы узнать, как делать все, что нужно для очистки и анализа. Я не знаю о референции, но, безусловно, мне нравится то, что я делаю. Стажировка прошла хорошо, мы реально строим что-то презентабельное и востребованное.
Перенесемся ко времени моего поступления в колледж, до сих пор я не знаком с пандами, оставляя sklearn в стороне. Бум ИИ (2022 г.), и я изучаю свою «дорожную карту аналитика данных» в Интернете. В одном я уверен: все сводилось к SQL. Я начал изучать SQL, что в конечном итоге сильно изменило правила игры во время собеседований по приему на работу, и я получил работу стажера в DS.
Большие данные? что это такое?
писпарк?? нет read_csv("abc.csv") и что такое spark.read.parquet("s3://….")
Конечно, здесь появляется настоящая наука о данных с миллионами данных для анализа. На работе я начал каждый день прислушиваться к чему-то новому
- SQL на Python
- Python для панд
- Панды для pyspark
- специальный анализ для построения модели
- случайный лес для xgboost
- случайный поиск в сетке поиск в pycaret
- и бездна обучения
Я проложил свой путь, постоянно учась и применяя его. Взяв статистику за основу. Я прогрессировал.