Публикации по теме 'hadoop'
Что такое БОЛЬШИЕ ДАННЫЕ? С какими различными проблемами мы сталкиваемся
Давайте посмотрим, что такое БОЛЬШИЕ ДАННЫЕ 🙄
Термин «большие данные» относится к данным, которые являются настолько большими, быстрыми или сложными, что их трудно или невозможно обрабатывать традиционными методами. Акт доступа и хранения больших объемов информации для аналитики существует уже давно. Данные в больших данных представлены в виде огромного количества текста, видео, фотографий и т. д.
Ключевыми преимуществами в мире больших данных являются:
Объем . Организации..
Учебное пособие по внедрению приложений Spark
В этом уроке мы обсудим Учебное пособие по внедрению приложений Spark.
Добро пожаловать на урок Внедрение приложений Spark в учебном пособии по Big Data Hadoop, который является частью онлайн-обучения по большим данным , предлагаемого OnlineITGURU.
В этом уроке мы обсудим, как реализовать приложение Spark. Вы также познакомитесь с SparkContext и параметрами кластера приложений Spark.
Давайте сначала рассмотрим цели этого урока.
Цели
После прохождения этого урока вы сможете:..
Локальный халуп на ноутбуке для практики
Введение
Вот что я узнал на прошлой неделе об установке Hadoop:
Hadoop звучит как очень большая вещь (это слон ;), не так ли?), сложная установка, кластер, сотни машин, Тера, если не Пета данных, но на самом деле, вы можете скачать простую банку и запустить hadoop с hdfs на вашем ноутбуке, для практики это очень просто!
Наш план
Настройте JAVA_HOME (hadoop построен на Java). Скачайте tar.gz для хаупа. Извлечь tar.gz из файла hadoop Настройка конфигурации хаупа Запустите и..
Установка PySpark с JAVA 8 в ubuntu 18.04
Базовая настройка для распределенного машинного обучения
После нескольких часов борьбы я наконец установил java 8, Spark и настроил все переменные среды. Я просмотрел много средних статей и ответов на StackOverflow, но ни один конкретный ответ или сообщение не помогли мне решить мои проблемы. Так что это всего лишь моя небольшая попытка собрать все воедино.
На моей машине установлена ubuntu 18.04, и я использую java 8 вместе с anaconda3. Если вы выполните следующие действия, вы..
Что такое HDFS?
Понимание того, как работает HDFS (распределенная файловая система Hadoop), очень важно для решения любой проблемы с большими данными. HDFS - это файловая система на основе Java, которая обеспечивает масштабируемое и надежное хранилище данных, построенное на больших кластерах с очень дешевыми и ненадежными машинами. Он следует архитектуре «главный / подчиненный», в которой мастер или Namenode хранит метаданные, а подчиненные устройства или Datanode хранят фактические данные. HDFS..
Запуск Spark, Python и Jupyter Notebook на Amazon EC2
Запуск Spark, Python и Jupyter Notebook на Amazon EC2
Пошаговое руководство по настройке PySpark для работы с Jupyter Notebook на экземпляре Amazon EC2.
Привет! Меня зовут Хосе Портилья, и я обучаю более 200 000 студентов программированию, науке о данных и машинному обучению на Udemy! Вы можете ознакомиться со всеми моими курсами здесь .
Если вы заинтересованы в изучении Python для науки о данных и машинного обучения, прочтите мой курс здесь . (Я также преподаю Веб-разработка..
5 главных ошибок, которых следует избегать при написании приложений Apache Spark
5 главных ошибок, которых следует избегать при написании приложений Apache Spark
Spark — одна из самых популярных в последнее время систем обработки больших данных. Одна из основных причин заключается в его способности обрабатывать потоковые данные в реальном времени. Его преимущества перед традиционным MapReduce:
Это быстрее, чем MapReduce Хорошо оснащен способностями к машинному обучению. Поддерживает несколько языков программирования.
Однако, несмотря на все эти..