Публикации по теме 'introduction-to-pyspark'


PySpark для людей, ценящих свое время
В этом посте я расскажу вам об основах PySpark. Я постараюсь сделать его кратким и лаконичным. Перво-наперво, что такое Spark? Распределенная система обработки, используемая для рабочих нагрузок больших данных или чего-либо еще;) Она быстрее, чем MapReduce (операции фильтрации, сортировки и суммирования), потому что работает в памяти. Итак, стоит помнить: MapReduce ~ = дисковые вычисления Spark ~ = вычисления, ориентированные на память Это, конечно, большое обобщение, но..