Кураторский список потрясающих библиотек

Как пользователь Python, я встречал множество разных пакетов и тщательно отобранных списков. Некоторые из них есть в моих закладках, например, великий курируемый список awesome-python-data-science или курируемый список awesome-python. Если вы их не знаете, проверьте их как можно скорее.

В этом посте я хочу показать вам кое-что еще. Это результаты ночного просмотра GitHub / Reddit, а также интересные материалы, которыми поделились коллеги.

Некоторые из этих пакетов действительно уникальны, другие просто забавны в использовании и являются настоящими неудачниками среди специалистов по обработке данных / статистиков, с которыми я работал.

Давайте начнем!

Разное (странные)

  • Тук-тук: отправляйте уведомления с Python на мобильные устройства, рабочий стол или по электронной почте.
  • tqdm: Расширяемая панель выполнения для Python и CLI со встроенной поддержкой pandas.
  • Colorama: простой кроссплатформенный цветной текст терминала.
  • Pandas-log: предоставляет отзывы об основных операциях pandas. Отлично подходит для отладки длинных цепей труб.
  • Pandas-flavour: Простой способ расширить Pandas DataFrame / Series.
  • More-Itertools: как бы он ни звучал, он добавляет дополнительные функции, аналогичные itertools.
  • Оптимизировано: простой способ создавать приложения для проектов машинного обучения.
  • SQLModel: SQLModel, базы данных SQL на Python, разработанные для простоты, совместимости и надежности.

Очистка данных и манипулирование

  • ftfy: Постфактум устраняет моджибаке и другие сбои в тексте Unicode.
  • дворник: Множество крутых функций для очистки данных.
  • Optimus: Еще один пакет для очистки данных.
  • Большие ожидания: Отличный пакет, чтобы проверить, соответствуют ли ваши данные вашим ожиданиям.

Исследование и моделирование данных

  • P andas-profile: Создайте отчет HTML со статистикой из pandas DataFrame.
  • dabl: разрешить исследование данных с помощью визуализации и предварительной обработки.
  • pydqc: Позволяет сравнивать статистику между двумя наборами данных.
  • Pandas-summary: Расширение pandas DataFrames для описания функции.
  • pivottable-js: функция перетаскивания для pandas внутри блокнота jupyter.

Структуры данных

  • Bounter: эффективный счетчик, который использует ограниченный (ограниченный) объем памяти независимо от размера данных.
  • python-bloomfilter: масштабируемый фильтр Блума, реализованный на Python.
  • datasketch ​​: Предоставляет вероятностные структуры данных, такие как LSH, Weighted MinHash, HyperLogLog и другие.
  • диапазоны: структуры данных Continuous Range, RangeSet и RangeDict для Python.

Проверка и оптимизация производительности

  • Py-spy: Профилировщик семплов для программ на Python.
  • pyperf: набор инструментов для выполнения тестов Python.
  • snakeviz: просмотрщик профилей Python в браузере с отличной поддержкой блокнота Jupiter.
  • Cachier: постоянное, постоянное, локальное и межмашинное кэширование для функций Python.
  • Faiss: библиотека для эффективного поиска сходства и кластеризации плотных векторов.
  • mypyc: библиотека, которая компилирует код Python в расширения C с использованием подсказок типов.
  • Scalene: высокопроизводительный профилировщик CPU, GPU и памяти для Python.

Надеюсь, вы нашли что-то полезное или интересное для своей работы. Я собираюсь расширить эту публикацию в будущем, так что следите за новыми обновлениями!