Публикации по теме 'big-data'


Пространственная аналитика: основная инфраструктура современного ИТ-мира.
Пространственная аналитика , как и ГИС, считается базовой инфраструктурой современного ИТ-мира. Наука о данных — самая быстрорастущая профессия, возможности которой растут в геометрической прогрессии из года в год. Руководители корпораций во всех секторах и государственные деятели пришли к пониманию того, насколько эффективным может быть пространственный анализ в процессе принятия решений в бизнесе и обществе, обеспечивая дополнительный уровень понимания. Широкое использование..

Начало работы с Apache Spark — I
Серия статей, которые помогут вам начать работу с Apache Spark! Определение больших данных С постепенным увеличением распределенных вычислений, вычислительной мощности и множества вариантов хранения, появившихся в последнее десятилетие, термин «большие данные» стал широко использоваться. Что такое большие данные и какие данные можно назвать большими данными? По сути, мы можем описать это, используя Объем 3V Объем генерируемых данных (измеряется в байтах, мегабайтах,..

Применение математики - наука о данных и машинное обучение
Назовете ли вы это математикой, математикой или традиционным способом называть это математикой, если у вас есть среднее или выше минимальное знание счета чисел, значит, вы уже обладаете навыком решать и анализировать проблемы. Поскольку вы занимаетесь математикой, ваши возможности безмерно многочисленны с точки зрения работы и карьерного роста. От карьеры в области бухгалтерского учета, банковского дела, актуарной науки, метеорологии, преподавания, финансового анализа, статистики,..

Как записать результаты горячего кодирования PySpark One в интерпретируемый файл CSV
5-минутное руководство по стилю Pandas One Hot Encoding с использованием Spark. Создайте чистую, интерпретируемую человеком схему горячего кодирования, доступную для записи в файлы любого типа, включая CSV. Однократное горячее кодирование — это типичный шаг для подготовки любого набора данных к моделированию машинного обучения. Это один из наиболее распространенных шагов в любом конвейере предварительной обработки функций. Горячее кодирование превращает категориальные данные в двоичное..

Доставка ML-кода в производство за несколько дней: как мы сэкономили много денег нашей компании с…
Обзор В нашей компании в производстве на постоянной основе находятся сотни моделей машинного обучения (ML) и расчетных скриптов. И наше подразделение Data Engineering поставило задачу сделать какой-нибудь CD/CD-компонент, наиболее подходящий для наших целей: Большое количество используемых библиотек от проекта к проекту Различные исполнительные платформы Гибкое расписание Уменьшение времени выхода на рынок (TTM) Масштабируемость и отказоустойчивость Для достижения наших целей мы..

Данные + AI = БУМ! ¤
Два самых важных слова, обозначающих будущее бизнеса, на данный момент также являются двумя самыми популярными словами: данные и искусственный интеллект . Исследование, проведенное Narrative Science, показывает, что 62 процента организаций будут использовать искусственный интеллект к 2018 году . Для стартапов это число намного выше: многие технологические стартапы, независимо от отрасли, имеют бизнес-модели, основанные на выявлении проблемы и применении той или иной технологии..

Типовой проект инженерии данных - обмен данными от группы разработки данных Netflix
На прошлой неделе мне посчастливилось побывать на семинаре WiBD, организованном командой разработчиков данных Netflix. Я ранее общался с инженерами по обработке данных из многих ведущих технологических компаний, таких как LinkedIn, Facebook, а также с их коллегами из быстрорастущих стартапов. Неудивительно - роль инженера по обработке данных значительно варьируется от одной компании к другой. Следовательно, путь к инженерии данных всегда окутан тайной. Мне было очень приятно понять, чем в..