Публикации по теме 'introduction-to-pyspark'
PySpark для людей, ценящих свое время
В этом посте я расскажу вам об основах PySpark. Я постараюсь сделать его кратким и лаконичным.
Перво-наперво, что такое Spark?
Распределенная система обработки, используемая для рабочих нагрузок больших данных или чего-либо еще;) Она быстрее, чем MapReduce (операции фильтрации, сортировки и суммирования), потому что работает в памяти. Итак, стоит помнить:
MapReduce ~ = дисковые вычисления
Spark ~ = вычисления, ориентированные на память
Это, конечно, большое обобщение, но..