Если вы следили за моими статьями, то знаете, что недавно я заинтересовался тестированием производительности библиотек данных Python. Я уже сделал несколько тестов Pandas vs Polars и Polars vs PySpark.

Какая библиотека лучше, учитывая размер набора данных???

🙄



Pandas vs Polars vs Pandas 2.0…. БОРЬБА
Тестирование процесса ETLlevelup.gitconnected.com









Я также представил вам несколько альтернатив для работы с фреймами данных с помощью этих библиотек Python.



Как вы могли заметить, меня особенно интересует Polars 😁, так как он очень прост в использовании, но имеет фантастическую производительность, особенно из-за ленивых вычислений.

Поскольку Dask также является библиотекой, которая привносит параллельные вычисления и выполнение вне памяти в мир анализа данных, я думаю, что это может быть хорошим тестом производительности для сравнения Polars с Dask. 😏

В этой статье я постараюсь увидеть на малых, средних и больших наборах данных, какая библиотека работает быстрее.

1. Скрипты