Публикации по теме 'word-count'


Количество слов с чистой Java
Использование Java Stream API для подсчета частоты слов: «Порядок — волшебное слово!» Впервые я столкнулся с проблемой подсчета слов на курсе по большим данным. Подсчет частоты слов и отчет о них в порядке убывания с использованием Hadoop, а затем с PySpark. Быстрый поиск в Google выдаст вам все результаты, которые в основном скопированы из какого-то источника, и единственная разница заключается в именах переменных. Я люблю Python, и программирование на Python определенно поможет вам..

Вопросы по теме 'word-count'

число слов hadoop - экспортированная банка не работает
Я очень новичок в Hadoop. Я настроил одноузловой кластер hadoop-1.0.4, также я dl jar примеров - hadoop-exaples-1.0.4.jar от apache hadoop web. Используя банку и команду «hadoop jar hadoop-examples-1.0.4.jar wordcount 'input-dir' 'output-dir'», я...
2039 просмотров
schedule 23.09.2023

Запись в файл в HDFS в Hadoop
Я искал приложение Hadoop с интенсивным использованием диска, чтобы проверить активность ввода-вывода в Hadoop, но я не смог найти ни одного такого приложения, которое поддерживало бы использование диска выше, скажем, 50%, или какое-то подобное...
3726 просмотров
schedule 18.04.2022

подсчитывать слова из файла doc и docx
Я хочу подсчитать количество слов из файлов .doc и .docx . Я пробовал ниже код: - $file_upload = 'test.docx'; $zip = new ZipArchive; $file_content = " "; if ($zip -> open($file_upload) === true) { if ( ($index = $zip ->...
1690 просмотров
schedule 03.10.2022

mrJob python mapReduce word_count.py
Я только начал использовать mrJob (mapReduce для python) и не знаком с парадигмой MapReduce. Я хотел бы узнать следующее об учебнике word_count.py, который представлен на сайте документации MRJob. В документах говорится, что если мы создадим...
2522 просмотров
schedule 03.09.2022

как избавиться от вещей, а не слов, скажем, точки и т. д. для метода подсчета небольших слов
Я просто хочу использовать java, чтобы написать простой метод подсчета слов для эссе. Но как я могу избавиться от вещей не как слово, не сказать период и т.д. Спасибо!
85 просмотров
schedule 29.01.2023

Perl-скрипт для подсчета слов и печати в одном файле
Я работал над Perl-скриптом для своей магистерской диссертации, чтобы извлечь небольшой фрагмент текста (CAE) из 10K (годовой отчет компании). Мне удалось закончить написание этого скрипта после большой работы. Теперь мне нужно написать новый...
401 просмотров
schedule 08.04.2022

Проблемы с запуском программы подсчета слов hadoop
Я пытаюсь запустить программу подсчета слов, указанную в тесте puma. The WordCount.java file is as follows: /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file *...
1238 просмотров
schedule 02.06.2023

Word 2010 VBA неправильно считает слова в предложении против самого себя
Макрос ниже должен получить среднее количество слов в предложении, а затем сделать текст красным во всех предложениях, которые составляют> = 150% от этого. Проблема в том, что некоторые более короткие предложения также окрашиваются в красный...
353 просмотров
schedule 03.01.2023

Библиотека регулярных выражений Python повторно считает слово, когда строка пуста
Ситуация следующая: Со следующим фрагментом кода: import re content = '' count = len(re.split('\W+', content, flags=re.UNICODE)) print(count) # Output is expected to be 0, as it has no words # Instead output is 1 Что происходит не так?...
60 просмотров
schedule 10.05.2023

Невозможно настроить количество редукторов в задании WordCount в Hadoop
Я использую кластер с одним узлом — Hadoop-2.7.0 в своей машине Linum. Мой код для WordCount Job работает нормально с 1 редуктором. Но не работает нормально, если я увеличу редукторы. Он показывает следующую ошибку: 15/05/25 21:15:10 INFO...
432 просмотров
schedule 04.08.2022

Подсчитайте количество символов в каждом слове каждой строки файла
этот код напечатает все количество строк, общее количество слов и общее количество символов в текстовом файле. Он работает нормально и дает ожидаемый результат. Но я хочу подсчитать количество символов в каждой строке и напечатать так: - Line...
5665 просмотров
schedule 09.06.2022

Количество букв в предложении без учета последнего слова
Я новичок в программировании на Java. Этот фрагмент вычисляет количество букв в каждом слове и сохраняет его в виде строки (исключая пробелы), но он вычисляет только до «большого» и не считает буквы в «контейнере». class piSong { String pi =...
204 просмотров
schedule 26.08.2022

Служба Spark submit «Драйвер» не может привязаться к ошибке порта
Я использовал следующую команду для запуска искрового Java-примера подсчета слов: - time spark-submit --deploy-mode cluster --master spark://192.168.0.7:6066 --class org.apache.spark.examples.JavaWordCount...
22532 просмотров
schedule 12.11.2022

Как подсчитать общее количество слов без использования строки?
Я реализовал этот код для получения no. количества слов. Он отлично работает для всех одиночных символов, то есть если я ввожу "q w r " в качестве ввода, он дает мне 3 слова, но когда я ввожу "qwe ed df " в качестве ввода, он...
3473 просмотров
schedule 14.12.2022

Подсчет слов в документе Word, включая сноски
Я периодически получаю длинные документы, содержащие сноски, и пытаюсь найти способ с помощью VBA подсчитать количество слов на каждой странице, включая сноски. Не имеет значения, перетекает ли сноска на следующую страницу, я просто подсчитываю...
643 просмотров
schedule 06.06.2023

Как разделить слово запятой, пробелом, точкой (.), табуляцией (\ t), круглыми скобками (), квадратными скобками [] и фигурными скобками ({}) в wordcount hadoop?
Я практикую MapReduce с Cloudera turotial здесь . Однако в настоящее время учебник разделяет слова только пробелом с помощью этого регулярного выражения в Java: private static final Pattern WORD_BOUNDARY = Pattern.compile("\\s*\\b\\s*");...
1027 просмотров
schedule 16.12.2022

Задание WordCount выполняется на «localjobrunner» вместо «пряжи»
Я запускаю пример WordCount в eclipse luna 3.8. Моя работа работает нормально на localjobrunner, но я хочу, чтобы она работала на кластере пряжи, потому что хочу получить доступ к журналам Hadoop. Где-то я читал, что если задание выполняется...
336 просмотров
schedule 20.04.2023

количество слов во всех файлах с использованием цикла for
Я хочу получить частоту слов для каждого файла во всех файлах в папке. Однако это не сработало. Ошибка была следующей: C:\Python\Anaconda3\python.exe C:/Python/Anaconda3/frequency.py Трассировка (последний последний вызов): Файл...
1395 просмотров
schedule 14.08.2022

Проблемы с использованием groupby для подсчета слов, а затем цикла с использованием python
Количество слов и совокупная сумма У меня набор данных до 1,5 миллионов строк. Этот набор данных представляет собой временной ряд в формате года, как показано ниже. Я пытаюсь подсчитать количество строк за год в кумулятивном формате. Пример...
960 просмотров

Нет такого файла или каталога в hadoop при выполнении программы WordCount с помощью команды jar
Я новичок в Hadoop и пытаюсь решить проблему WordCount. То, что я сделал до сих пор - Настройка кластера с одним узлом Hadoop по ссылке ниже....
568 просмотров
schedule 03.05.2023