Если вы следили за моими статьями, то знаете, что недавно я заинтересовался тестированием производительности библиотек данных Python. Я уже сделал несколько тестов Pandas vs Polars и Polars vs PySpark.
Какая библиотека лучше, учитывая размер набора данных???
🙄
Я также представил вам несколько альтернатив для работы с фреймами данных с помощью этих библиотек Python.
Как вы могли заметить, меня особенно интересует Polars 😁, так как он очень прост в использовании, но имеет фантастическую производительность, особенно из-за ленивых вычислений.
Поскольку Dask также является библиотекой, которая привносит параллельные вычисления и выполнение вне памяти в мир анализа данных, я думаю, что это может быть хорошим тестом производительности для сравнения Polars с Dask. 😏
В этой статье я постараюсь увидеть на малых, средних и больших наборах данных, какая библиотека работает быстрее.