Публикации по теме 'big-data'
BlazingSQL в шести строках кода
Мы много говорили о том, как просто SQL-запросить необработанные данные в память графического процессора с помощью нашего нового BlazingSQL API. Мы подумали, что вместо того, чтобы рассказывать вам больше, было бы лучше показать вам реальный пример.
Для целей этой демонстрации мы будем использовать данные о сетевом трафике.
Начало работы с BlazingSQL
Пакет импорта
from blazingsql import BlazingContext
Создайте яркий контекст
Вы можете думать о BlazingContext так же, как о..
PySpark process Multi char Delimiter Dataset
Программирование
PySpark process Multi char Delimiter Dataset
Цель этой статьи - обработать несколько файлов с разделителями, используя Apache Spark с языком программирования Python. Это сценарий в реальном времени, когда приложение может совместно использовать несколько файлов с разделителями, а команда разработчиков должна обрабатывать их. Мы узнаем, как справиться с этой задачей.
Набор входных данных выглядит следующим образом:
Name@@#Age <--Header
vivek, chaudhary@@#30..
Университет Качча открыл исходный код своей лаборатории Data Science
Университет Качч (также известный как KSKV Kachch University) недавно открыл исходный код своей лаборатории Data Science на Github https://github.com/dskskv/CCCS936 . Почти год и 6 месяцев назад Департамент компьютерных наук Каччского университета решил устранить разрыв между промышленностью и научными кругами.
Самая большая проблема нынешней образовательной системы заключается в том, что колледжи / университеты преподают старые инструменты и технологии, тогда как, с другой стороны, в..
Трамп, микротаргетинг и механизмы информационного капитализма
Немецкая статья Ich habe nur gezeigt, dass es die Bombe gibt швейцарского издания Das Magazin получила широкое распространение в последние дни и была названа самой важной статьей года.
Почему? Потому что это обещает ответ на один из самых актуальных вопросов: как Трамп мог победить на президентских выборах?
В статье утверждается, что за победу ответственны большие данные и микротаргетинг.
В частности, упоминается влияние компании больших данных Cambridge Analytica и ее..
Хотите стать инженером по данным? Вот полный список ресурсов для начала
Прежде чем модель будет построена, прежде чем данные будут очищены и подготовлены к исследованию, даже до того, как начнется роль специалиста по данным - вот где инженеры по обработке данных вступают в игру. Каждый бизнес, основанный на данных, должен иметь структуру для конвейера обработки данных, в противном случае это может привести к провалу.
Большинство людей входят в мир науки о данных с целью стать специалистом по данным, даже не осознавая, что такое инженер данных и что влечет..
Масштабирование сложных запросов с помощью @druidio и его нового движка GroupBy V2 для аналитики в реальном времени.
В последнее время наблюдается большой интерес к альтернативным решениям для баз данных, после первого поколения баз данных NoSQL несколько лет назад. При создании нашего продукта для мониторинга реальных пользователей Raygun Pulse мы изначально обратились к PostgreSQL из-за его богатого набора встроенных аналитических функций в дополнение к полной мощности СУБД и SQL (объединения и все такое). Однако теперь, когда мы сбились с пути, несмотря на то, что мы выбрали мультитенантность,..
Я выбираю начать снова
Год назад я уволился с хорошо оплачиваемой работы технического директора, чтобы работать над собственной идеей. Принятие этого решения кажется очень легким в тот момент времени. Но последствия этого решения я осознал позже, когда познакомился с настоящим миром стартапов.
Уволившись с работы, я начал с сырой идеи.
Я всегда хотел учиться быстрее и расти лучше. Я все еще хочу. Я амбициозен. Итак, я подумал, сколько людей будет, как я? Но мы тратим наше время на то, чтобы добиться..