Публикации по теме big-data

Публикации по теме 'big-data'

Использование потока данных в Clojure для обработки огромного нового набора данных Google WikiReading

Вчера я изучал новый набор данных WikiReading , и мне удалось сократить его 208 ГБ несжатого JSON примерно до 50 ГБ, упростив структуру объектов - в основном удалив кучу денормализованных полей. Я использовал простой инструмент командной строки: jq . Но файлы все еще слишком велики, чтобы их можно было вставить в Clojure REPL на моем ноутбуке. Сегодня я хочу перейти от 18,8 миллионов троек (документ, свойство, значения) к карте из ~ 4,7 миллиона документов, каждый из которых связан с..

Конференция Pune Data 2019 - готово!

Конференция Pune Data Conference 2019 собрала вместе более 450 экспертов, включая руководителей высшего звена, выдающихся докладчиков, архитекторов решений и инженеров-программистов, чтобы обсудить революционные технологии, которые формируют будущее банковских и финансовых услуг, розничной торговли, страхования, здравоохранения и других отраслей. Большинство этих сессий и дискуссий касались новых технологических тенденций, включая машинное обучение, искусственный интеллект, Интернет..

Индустрия больших данных: ультиматум будущего

По оценкам Grand View Research, к 2025 году рынок больших данных вырастет до похвального размера в 123,2 миллиарда долларов США. Шумиха вокруг больших данных набирает обороты и в следующем десятилетии будет все больше и больше развиваться. По прогнозам SNS Research, при среднегодовом темпе роста 10% доходов от больших данных и бизнес-аналитики к 2020 году они обязательно вырастут до 76 миллиардов долларов США. Все эти перспективы делают мир больших данных еще более захватывающим...

Социальные сети и гендерное предсказание

Часто, когда мы работаем с данными из социальных сетей, мы хотим знать о пользователях больше, чем то, что явно сообщает нам текст. То есть мы хотим вывести демографические переменные из текстовых данных. Одной из наиболее распространенных демографических переменных, которые следует хотеть, является пол. Исследователи социальных сетей смогли успешно различать пользователей социальных сетей мужчин и женщин, учитывая фрагменты текста приличного размера. Сегодня мы рассмотрим простую..

На этой неделе машинного обучения, 27 мая 2016 г.

Лучшие истории о машинном обучении на этой неделе, в том числе о роботах, которые водят вашу машину, диагностируют ваши медицинские изображения, собирают беспорядок и многое другое! Машинное обучение - одна из самых захватывающих областей в мире. Каждую неделю мы открываем для себя что-то новое, что-то удивительное, что-то революционное. Это невероятно, но может быть и подавляющим. Вот почему мы создали This Week in Machine Learning! Каждую неделю мы публикуем тщательно подобранный..

Параллелизм и многопоточность

Параллелизм. Это слово означает «вещи, которые происходят или существуют вместе в одно и то же время». Программисты и инженеры в 1960-х годах объединились в IBM, чтобы возглавить SMT, или одновременную многопоточность. Что это значит? Это означает, что ребята, которые создали конкретный язык, дали вам, смертным, возможность разделить кусок кода и распределить его между вашими жаждущими процессорами, в основном РАВНОМЕРНО! Необходимость возникла, когда МНОГО кода, я говорю о коде,..

Причины, по которым вам больше не следует рассматривать Data Science. Подожди, я же сказал, не надо!

«Информация - это нефть 21 века, а аналитика - двигатель внутреннего сгорания». Сила больших данных и науки о данных радикально меняет мир. С тех пор, как мы вступили в эру больших данных, наука о данных стала одной из самых быстрорастущих компаний с многомиллионными доходами. В настоящее время все завалено данными. Данные присутствуют в каждом цифровом и электронном устройстве. Будь то компьютер, мобильный телефон, ноутбук, фотоаппарат или даже часы. Компании..