Публикации по теме 'big-data'


Контроль версий данных в DVC: узнайте, что игнорируют другие исследователи данных
Полное руководство по управлению версиями данных с помощью DVC в Python Большая проблема в науке о данных Когда набор данных большой, он создает еще больший беспорядок. Почему? Специалисты по данным и инженеры по машинному обучению проводят множество экспериментов с массивными наборами данных и моделями, и их размер создает огромные проблемы в отношении совместной работы и лучших практик разработки программного обеспечения. Традиционно инженеры-программисты сотрудничают, создавая..

На пути к науке о данных: мой год от нуля до одного в истории науки о данных
Привет, читатель, это моя история о том, как я, будучи инженером-механиком, переключил свое внимание с двигателя внутреннего сгорания на pd.read_parquet. Короткий рассказ — обязательно к прочтению новичкам. История начинается с моего до четвертого года. Я только что начал свою стажировку в IIT Ropar, где мы вместе строим недорогую холодильную систему. Моя задача состоит в том, чтобы получить доступные на рынке данные, использовать их, проанализировать и повторить этот цикл для..

Однородные кадровые привычки Big Tech наносят ущерб нашим данным
В нашем цифровом мире, ориентированном на потребителя, мы срочно внедряем инновации и разрабатываем новые продукты. В связи с тенденцией к машинному обучению и постоянным давлением необходимости двигаться быстро и ломать - я имею в виду «строить» - вещи, большие технологии постоянно нуждаются в строителях. В результате инженеры-программисты стали очень востребованным товаром, преобладающим в численности персонала и разжигающим войны заявок между компаниями. Однако по мере роста амбиций..

9. Заполнение DAG воздушного потока
Мои личные заметки из книги «Конвейеры данных с Apache Airflow» Баса Харенслака и Джулиана де Руйтера — глава 3, часть 5 Введение Эта серия постов подытоживает мои выводы из книги Баса Харенслака и Джулиана де Рюйтера. Если вам нравится содержание, вы можете приобрести книгу на Manning .

Сегментация клиентов с использованием K-средних в R
В предыдущем посте я рассмотрел теорию кластеризации и K-средних. В этом посте я покажу вам на практическом примере, как эту технику можно применить к реальной жизненной проблеме. Для этого анализа я буду использовать набор данных: [Набор данных оптовых клиентов] (Абреу, Н. (2011). Он содержит следующие атрибуты: — FRESH: годовые расходы (ед. ед.) на свежие продукты (Continuous); — МОЛОКО: годовые расходы (м.е.) на молочные продукты (непрерывно); — ПРОДОВОЛЬСТВЕННЫЕ: ежегодные..

Понимание больших данных: вызовы и возможности в эпоху информационной перегрузки
Раскрытие потока данных: преодоление вызовов и расширение горизонтов в ландшафте больших данных В сегодняшнюю цифровую эпоху мы генерируем огромное количество данных с каждым щелчком, касанием и онлайн-взаимодействием. Эту обширную коллекцию данных метко называют «большими данными». От сообщений в социальных сетях и онлайн-транзакций до показаний датчиков и научных исследований — большие данные меняют наш образ жизни и ведение бизнеса. Эта статья призвана демистифицировать большие..

12 способов применить функцию к каждой строке в Pandas DataFrame
Советы по программированию 12 способов применить функцию к каждой строке в Pandas DataFrame Как профилировать производительность и сбалансировать ее с простотой использования Применение функции ко всем строкам в Pandas DataFrame - одна из самых распространенных операций во время обработки данных . Функция Pandas DataFrame apply - наиболее очевидный выбор для этого. Он принимает функцию в качестве аргумента и применяет ее вдоль оси DataFrame. Однако это не всегда лучший..