Вопросы по теме 'bigdata'

Могут ли одноранговые узлы BitTorrent обрабатывать раздачу большого количества неактивных торрентов
Я подумываю об использовании BitTorrent для решения большой проблемы распространения данных, когда источником данных является петафактор, а пользователям потребуется до нескольких терабайт. Некоторые подробности Количество торрентов потенциально...
1799 просмотров
schedule 04.09.2022

R: Можно ли распараллелить/ускорить чтение CSV из более чем 20 миллионов строк в R?
Как только CSV загружен через read.csv , довольно просто использовать multicore , segue и т. д., чтобы поиграть с данными в CSV. Однако прочесть его — довольно затратное время. Поймите, что лучше использовать mySQL и т.д. Предположим, что...
3028 просмотров
schedule 07.11.2023

Обработка чрезвычайно больших объемов данных в веб-приложениях
Как лучше всего хранить очень большой объем данных для веб-приложения? Каждая запись имеет всего 3 поля, но будет около 144 миллионов записей в день, которые будут храниться в течение одного месяца, всего 4 464 000 000 записей. Округлим до 5...
3648 просмотров
schedule 08.11.2023

Низкоуровневый доступ к файлам (txt,csv) под R (чтение только выбранных строк, без чтения всего файла в память)
Есть ли простая функция R для чтения определенных строк из текстовых файлов (*.txt или особенно *.csv) без чтения всего файла в память? Я хотел бы читать только выбранные строки файла, например, читать только строки с x1==b : x1 x2 x3 a 1 1 a...
177 просмотров
schedule 30.12.2022

Использование Hadoop и связанных с ним проектов для анализа моделей использования, которые постоянно меняются.
Мы разрабатываем стратегию анализа пользовательского «интереса» (клики, отметки «Нравится» и т. д.) к более чем 1 миллиону элементов на нашем сайте для создания списка «похожих элементов». Чтобы обрабатывать большое количество необработанных...
253 просмотров
schedule 30.08.2022

Jena/Sparql/Arq: вставка некоторых операторов в модель во время запроса
Я построил небольшую модель RDF: она содержит всего несколько троек, описывающих некоторые элементы генома человека. Я хочу сохранить только те элементы, которые перекрывают некоторые геномные сегменты (скажем, «ген»), хранящиеся в другой...
332 просмотров
schedule 23.08.2022

Использование Hive для запросов в реальном времени
Прежде всего, я хотел уточнить, что я изучаю Hive и Hadoop (и большие данные в целом), поэтому извините за отсутствие надлежащего словарного запаса. Я приступаю к огромному (по крайней мере, для меня) проекту, который требует работы с огромным...
6542 просмотров
schedule 20.08.2022

Может ли MongoDB обрабатывать ТБ данных?
Будет ли MongoDB обрабатывать несколько ТБ данных? Я читал сообщения о том, что Mongo хорошо справляется с ‹ 1 ТБ данных, для больших наборов я должен использовать HBase. Это правда? Мне нужно сохранить и позже обработать несколько ТБ текстовых...
2095 просмотров
schedule 07.04.2023

Как обрабатывать файлы с префиксом длины в Hadoop
У меня есть огромный LPF (файл с префиксом длины), который должен обрабатываться Hadoop. Файл LPF имеет формат: (размер 1-й записи в 4 байтах) (размер 1-го столбца в 2 байтах) (1-й столбец) (размер 2-го столбца) (2-й столбец)………….(размер n-го...
841 просмотров

Как импортировать данные из Cassandra в файловую систему Hadoop
Я хотел бы знать, как импортировать данные из Cassandra в файловую систему Hadoop и как это можно делать на постоянной основе (например, когда в базе данных Cassandra есть изменения или новые данные вставляются в Cassandra, как мы можем обнаружить...
954 просмотров
schedule 09.08.2022

Какая альтернатива использованию ObjectId в качестве уникального идентификатора пользователя в монго?
Мой макет сайта выглядит так: blah.com/user/<username> User1 { _id: "ObjectID(asdfa)", name: "john smith", email: "[email protected], friends: [ "ObjectID(asdfa2)", "ObjectID(asdfa3)", "ObjectID(asdfa4)", ] } Я бы...
1186 просмотров
schedule 04.03.2023

Блокировка строк в поддержке однострочных транзакций HBase
В HBase для обеспечения поддержки транзакций с одной строкой используется концепция блокировки строк. Предположим, например Put p=new Put("/*Row Key*/"); Этот оператор заблокирует строку. Итак, пока мы не закончим таблица.put(p)...
5709 просмотров
schedule 07.08.2022

Как установить менеджер облака на Ubuntu (12.0.4) — 32-разрядная версия
У меня 32-разрядная версия Ubuntu, и кажется, что последняя версия Cloudera Manager поддерживает только 64-разрядную версию. Кто-нибудь устанавливал CDH4 и диспетчер облачной эры на 32-разрядную версию Ubuntu (12.0.4)? Не могли бы вы сообщить мне, как...
1161 просмотров
schedule 26.03.2023

Текстовая аналитика больших данных
Не могли бы вы, ребята, порекомендовать какие-нибудь хорошие инструменты или фреймворки, которые могут выполнять текстовую аналитику больших данных (мультиструктурированных) и должны быть с открытым исходным кодом?
231 просмотров
schedule 18.06.2023

Как сравнить размер двух больших векторов в С++
У меня есть два вектора a, b. Я хочу сравнить их размеры. Я знаю, что могу использовать if (a.size() > b.size()). Но мой вопрос в том, что размер слишком велик для типа int для a или/и b. For example, a.size() is...
279 просмотров
schedule 19.01.2023

Веб-интерфейс узла имени Hadoop не открывается в CDH4
Недавно я установил дистрибутив Cloudera CDH, чтобы создать кластер из 2 узлов. В пользовательском интерфейсе Cloudera Manager все службы работают нормально. Все инструменты командной строки (улей и т. д.) также работают нормально, и я могу читать...
778 просмотров
schedule 18.04.2023

В любом случае, чтобы сделать MongoDB Sharding в PHP?
Я начал использовать MongoDB для одного из моих проектов PHP. В этой базе данных я пытаюсь использовать концепцию сегментирования MongoDB. Я получил ссылку ниже и попробовал, Пример разделения MongoDB Это работает хорошо. Но проблема в том,...
1198 просмотров
schedule 31.07.2023

Формат даты MongoDb
Я делал массовую вставку в MongoDB, используя NodeJs (собственный драйвер). У меня есть поле даты в данных. Есть ли способ сохранить поле даты как Date , а не String ? У меня есть дата в формате dd/mm/yyyy . В текущем сценарии я получаю...
2163 просмотров

Lustre: отправка разных запросов на запись в разные OST
У меня есть типичный сценарий, когда можно писать запросы параллельно, и каждый файл имеет размер в несколько сотен ГБ. Моя тестовая система, файловая система Lustre, имеет 4 OST (по 3 ТБ каждый) и 1 MDS. Что я практически заметил, так это то,...
219 просмотров

Импорт файла .csv в mongodb
Я пытаюсь импортировать данные из файла csv в mongodb. CSV-файл с приведенными ниже данными 7259555112 774561213 3 4 7259555112 774561214 4 5 7259555112 774561215 1 3 7259555112 774561216 2 1 7259555112 774561217 4 2...
2309 просмотров
schedule 30.09.2022