Публикации по теме 'big-data'


Генерация естественного языка в Google Research
В этом эпизоде ​​ Cloud AI Adventures я беру Джастина Чжао, инженера-исследователя Google, в студию и выясняю, насколько сложно генерировать естественно звучащий текст. Мы также обсуждаем, как эту технологию можно использовать в повседневной жизни, например, когда вы спрашиваете на своем Google Home погоду. Мы также обсуждаем некоторые методы машинного обучения, применяемые к проблеме генерации естественного языка, и текущее состояние исследований в этой области. Это была интересная..

Вниманию бизнес-лидеров: как вас расстроят?
При всех «уличных» разговорах о нарушениях на различных рынках, от автомобильной промышленности до розничной торговли, может быть легко действовать реактивно и слишком быстро меняться, вместо того, чтобы действовать стратегически и делать то, что лучше для вашей отрасли. бизнес (по данным Reuters, на конец июля Amazon получил 10% звонков о прибылях и убытках в США) . Это? Помимо того, что вас перепрыгивают через лекционные залы ведущих бизнес-школ мира и в залах заседаний организаций..

Масштабирование дедупликации в реальном времени
В Tapjoy аналитика является основой нашей платформы. В среднем в день мы обрабатываем более 2 миллионов сообщений в минуту с помощью нашего аналитического конвейера. Эти сообщения генерируются различными пользовательскими событиями на нашей платформе и в конечном итоге объединяются для представления системы в реальном времени. В нашем технологическом стеке мы используем Kafka для хранения сообщений, Spark для потребления и агрегирования данных и Postgres для хранения агрегатов...

Оптимизация перекоса соединения в Hive
Перекошенные данные Данные могут быть «искажены», что означает наличие длинного хвоста с одной или другой стороны. Пример длинного хвоста в положительную сторону: Пример Предположим, у нас в системе есть следующие таблицы: ТАБЛИЦА 1. Факты Содержит 100M записей. Имеет поле CODE_ID как 1 поля. Тип данных - INTEGER и имеет значения в диапазоне 1–10K. 99M записей имеют значение 250 для поля CODE_ID. 1 млн записей имеют остальные значения с равной вероятностью. ТАБЛИЦА..

Новая книга: Корпоративный ИИ — Взгляд на приложения
Сейчас опубликовано. Корпоративный ИИ: перспектива приложений использует подход, основанный на сценариях использования, чтобы понять развертывание ИИ на предприятии. Книга, предназначенная для стратегов и разработчиков, представляет собой практичную и простую дорожную карту, основанную на примерах использования приложений для ИИ на предприятиях. Авторы (Аджит Джаокар и Чеук Тинг Хо) — специалисты по данным и исследователи искусственного интеллекта, развернувшие приложения искусственного..

На пути к интроспективной системе виртуализации данных
Знать и знать, чтобы знать, то есть еще одно слово для совершенно другого значения, которое вводит то осознание знания, которое является ключевым элементом для его обмена и, более того, основанием для извлечения из него той ценности, которую мы ищем. за. Эта сознательная компетентность , превосходящая только бессознательное, когда то, что я знаю, становится врожденным, автоматическим, чтобы заставить меня забыть, что я это знаю, является важным качеством для любой компании, которая..

FPGA встречает Apache Arrow - эффективная передача данных в памяти по столбцам с ML на основе FPGA…
Вступление В этой статье мы представляем новую структуру, которая позволяет бесшовную интеграцию ПЛИС в платформу разработки Apache Arrow. Интеграция FPGA с Apache Arrow-совместимыми фреймворками позволяет ускорять приложения для обработки данных без какого-либо предшествующего опыта работы с FPGA. Мы представляем прототип на Java, который обеспечивает бесшовную связь фреймворков с поддержкой Apache Arrow с FPGA. Сначала мы кратко объясняем цели нашей реализации, устраняя конкретные..