Вопросы по теме 'bigdata'
Могут ли одноранговые узлы BitTorrent обрабатывать раздачу большого количества неактивных торрентов
Я подумываю об использовании BitTorrent для решения большой проблемы распространения данных, когда источником данных является петафактор, а пользователям потребуется до нескольких терабайт. Некоторые подробности
Количество торрентов потенциально...
1799 просмотров
schedule
04.09.2022
R: Можно ли распараллелить/ускорить чтение CSV из более чем 20 миллионов строк в R?
Как только CSV загружен через read.csv , довольно просто использовать multicore , segue и т. д., чтобы поиграть с данными в CSV. Однако прочесть его — довольно затратное время.
Поймите, что лучше использовать mySQL и т.д.
Предположим, что...
3028 просмотров
schedule
07.11.2023
Обработка чрезвычайно больших объемов данных в веб-приложениях
Как лучше всего хранить очень большой объем данных для веб-приложения?
Каждая запись имеет всего 3 поля, но будет около 144 миллионов записей в день, которые будут храниться в течение одного месяца, всего 4 464 000 000 записей. Округлим до 5...
3648 просмотров
schedule
08.11.2023
Низкоуровневый доступ к файлам (txt,csv) под R (чтение только выбранных строк, без чтения всего файла в память)
Есть ли простая функция R для чтения определенных строк из текстовых файлов (*.txt или особенно *.csv) без чтения всего файла в память? Я хотел бы читать только выбранные строки файла, например, читать только строки с x1==b :
x1 x2 x3
a 1 1
a...
177 просмотров
schedule
30.12.2022
Использование Hadoop и связанных с ним проектов для анализа моделей использования, которые постоянно меняются.
Мы разрабатываем стратегию анализа пользовательского «интереса» (клики, отметки «Нравится» и т. д.) к более чем 1 миллиону элементов на нашем сайте для создания списка «похожих элементов».
Чтобы обрабатывать большое количество необработанных...
253 просмотров
schedule
30.08.2022
Jena/Sparql/Arq: вставка некоторых операторов в модель во время запроса
Я построил небольшую модель RDF: она содержит всего несколько троек, описывающих некоторые элементы генома человека.
Я хочу сохранить только те элементы, которые перекрывают некоторые геномные сегменты (скажем, «ген»), хранящиеся в другой...
332 просмотров
schedule
23.08.2022
Использование Hive для запросов в реальном времени
Прежде всего, я хотел уточнить, что я изучаю Hive и Hadoop (и большие данные в целом), поэтому извините за отсутствие надлежащего словарного запаса.
Я приступаю к огромному (по крайней мере, для меня) проекту, который требует работы с огромным...
6542 просмотров
schedule
20.08.2022
Может ли MongoDB обрабатывать ТБ данных?
Будет ли MongoDB обрабатывать несколько ТБ данных? Я читал сообщения о том, что Mongo хорошо справляется с ‹ 1 ТБ данных, для больших наборов я должен использовать HBase. Это правда?
Мне нужно сохранить и позже обработать несколько ТБ текстовых...
2095 просмотров
schedule
07.04.2023
Как обрабатывать файлы с префиксом длины в Hadoop
У меня есть огромный LPF (файл с префиксом длины), который должен обрабатываться Hadoop.
Файл LPF имеет формат: (размер 1-й записи в 4 байтах) (размер 1-го столбца в 2 байтах) (1-й столбец) (размер 2-го столбца) (2-й столбец)………….(размер n-го...
841 просмотров
schedule
29.10.2022
Как импортировать данные из Cassandra в файловую систему Hadoop
Я хотел бы знать, как импортировать данные из Cassandra в файловую систему Hadoop и как это можно делать на постоянной основе (например, когда в базе данных Cassandra есть изменения или новые данные вставляются в Cassandra, как мы можем обнаружить...
954 просмотров
schedule
09.08.2022
Какая альтернатива использованию ObjectId в качестве уникального идентификатора пользователя в монго?
Мой макет сайта выглядит так:
blah.com/user/<username>
User1 {
_id: "ObjectID(asdfa)",
name: "john smith",
email: "[email protected],
friends: [
"ObjectID(asdfa2)",
"ObjectID(asdfa3)",
"ObjectID(asdfa4)",
]
}
Я бы...
1186 просмотров
schedule
04.03.2023
Блокировка строк в поддержке однострочных транзакций HBase
В HBase для обеспечения поддержки транзакций с одной строкой используется концепция блокировки строк. Предположим, например
Put p=new Put("/*Row Key*/"); Этот оператор заблокирует строку.
Итак, пока мы не закончим
таблица.put(p)...
5709 просмотров
schedule
07.08.2022
Как установить менеджер облака на Ubuntu (12.0.4) — 32-разрядная версия
У меня 32-разрядная версия Ubuntu, и кажется, что последняя версия Cloudera Manager поддерживает только 64-разрядную версию. Кто-нибудь устанавливал CDH4 и диспетчер облачной эры на 32-разрядную версию Ubuntu (12.0.4)? Не могли бы вы сообщить мне, как...
1161 просмотров
schedule
26.03.2023
Текстовая аналитика больших данных
Не могли бы вы, ребята, порекомендовать какие-нибудь хорошие инструменты или фреймворки, которые могут выполнять текстовую аналитику больших данных (мультиструктурированных) и должны быть с открытым исходным кодом?
231 просмотров
schedule
18.06.2023
Как сравнить размер двух больших векторов в С++
У меня есть два вектора a, b. Я хочу сравнить их размеры. Я знаю, что могу использовать if (a.size() > b.size()). Но мой вопрос в том, что размер слишком велик для типа int для a или/и b. For example, a.size() is...
279 просмотров
schedule
19.01.2023
Веб-интерфейс узла имени Hadoop не открывается в CDH4
Недавно я установил дистрибутив Cloudera CDH, чтобы создать кластер из 2 узлов. В пользовательском интерфейсе Cloudera Manager все службы работают нормально.
Все инструменты командной строки (улей и т. д.) также работают нормально, и я могу читать...
778 просмотров
schedule
18.04.2023
В любом случае, чтобы сделать MongoDB Sharding в PHP?
Я начал использовать MongoDB для одного из моих проектов PHP. В этой базе данных я пытаюсь использовать концепцию сегментирования MongoDB. Я получил ссылку ниже и попробовал,
Пример разделения MongoDB
Это работает хорошо. Но проблема в том,...
1198 просмотров
schedule
31.07.2023
Формат даты MongoDb
Я делал массовую вставку в MongoDB, используя NodeJs (собственный драйвер). У меня есть поле даты в данных. Есть ли способ сохранить поле даты как Date , а не String ?
У меня есть дата в формате dd/mm/yyyy . В текущем сценарии я получаю...
2163 просмотров
schedule
14.03.2023
Lustre: отправка разных запросов на запись в разные OST
У меня есть типичный сценарий, когда можно писать запросы параллельно, и каждый файл имеет размер в несколько сотен ГБ.
Моя тестовая система, файловая система Lustre, имеет 4 OST (по 3 ТБ каждый) и 1 MDS.
Что я практически заметил, так это то,...
219 просмотров
schedule
23.10.2022
Импорт файла .csv в mongodb
Я пытаюсь импортировать данные из файла csv в mongodb.
CSV-файл с приведенными ниже данными
7259555112 774561213 3 4
7259555112 774561214 4 5
7259555112 774561215 1 3
7259555112 774561216 2 1
7259555112 774561217 4 2...
2309 просмотров
schedule
30.09.2022