Вопросы по теме 'text-parsing'

Создайте отличный синтаксический анализатор — извлеките соответствующий текст из HTML/блогов
Я пытаюсь создать обобщенный анализатор HTML, который хорошо работает с сообщениями в блогах. Я хочу указать своему синтаксическому анализатору URL-адрес конкретной записи и вернуть чистый текст самого сообщения. Мой основной подход (от python)...
5842 просмотров

Чтение следующей строки с помощью LINQ и File.ReadAllLines ()
У меня есть файл, представляющий элементы, в одной строке идет GUID элемента, за которым следуют 5 строк, описывающих элемент. Пример: Line 1: Guid=8e2803d1-444a-4893-a23d-d3b4ba51baee name= line1 Line 2: Item details = bla bla . . Line...
1634 просмотров
schedule 06.08.2022

Как сделать круговой сдвиг строк в bash?
У меня есть домашнее задание, в котором мне нужно вводить данные из файла и постоянно удалять первое слово в строке и добавлять его в конец строки, пока не будут выполнены все комбинации. Я действительно не знаю, с чего начать, и был бы благодарен...
5197 просмотров
schedule 12.03.2023

Код/подход к гольфу: найти строку в текстовом файле со слишком большим количеством столбцов
Учитывая текстовый файл, который должен содержать 10 столбцов с разделителями табуляции (т.е. 9 вкладок), я хотел бы найти все строки, которые имеют более 10 столбцов (более 9 вкладок). Каждый ряд заканчивается CR-LF. Не предполагайте ничего о...
316 просмотров
schedule 25.09.2022

Разбор многострочных данных в Perl
У меня есть некоторые данные, которые мне нужно проанализировать. Данные многострочные, и каждый блок отделяется новой строкой. Итак, это что-то вроде этого Property 1: 1234 Property 2: 34546 Property 3: ACBGD Property 1: 1234 Property 4: 4567...
8532 просмотров

Как разобрать и загрузить текстовый файл с Core Data?
Я прибегаю к вашему экспертному совету, потому что я как бы «новичок» в Objective-C, я прочитал пару книг и документов (а именно книги Аарона Хиллегасса и Стивена Г. Кочана), но некоторые вещи мне все еще неясны, для отсутствие практики. Чтобы вы...
440 просмотров

Превратите грамматику в грамматику LL1
Я готовлюсь к завтрашнему экзамену и пересматриваю прошлогодний. В тесте была грамматика. Expression -> Foo "+" Bar "end" Foo -> [a-z0-9]+ | Expression Bar -> Expression Foo | a*b*c+ Я пытался и часами изучал, как это сделать, но...
657 просмотров

Разделение большого текстового файла разделителем в Python
Я предполагаю, что это будет простая задача, но я не могу найти то, что ищу именно в предыдущих вопросах StackOverflow, а здесь идет... У меня есть большие текстовые файлы в собственном формате, которые выглядят примерно так: :Entry - Name John...
17459 просмотров
schedule 16.12.2022

PHP не может прочитать форматированный текст из преобразования COM .doc в .txt
У меня есть много файлов .doc со спецификациями входа в базу данных. Мне нужно проанализировать все эти документы и создать записи с информацией в документах. Я пытался использовать подход COM. Файл имеет обычный текст вверху и внизу страницы......
373 просмотров
schedule 16.08.2022

Как Google+ анализирует URL-адреса из сообщений?
Похоже, что Google+ использует регулярные выражения The-King-of-URL-Regexes для анализа посторонних сообщений пользователей. Он не требует протоколов и позволяет игнорировать знаки препинания. Например: если я публикую "Мне нравится...
411 просмотров
schedule 09.04.2023

Целевой текст без тегов с помощью Nokogiri
У меня есть очень голый HTML, который я пытаюсь проанализировать с помощью Nokogiri (на Ruby): <span>Address</span><br /> 123 Main Street<br /> Sometown<br /> <span>Telephone</span><br /> <a...
1584 просмотров
schedule 06.10.2022

Чтение параметров из текстового файла в рабочую область
У меня есть файл со следующей информацией: % ---------------------- location details -------------------------- % % lat : latitude [minimum = -90, maximum = 90, unit = % degrees north] % lon : longitude [ minimum = -360, maximum = 360,...
2617 просмотров
schedule 11.04.2022

Сопоставьте строку с фиксированными столбцами как можно дольше
Я собираюсь разобрать базовый файл позиций из устаревшей системы. Каждый столбец в файле имеет фиксированную ширину, а каждая строка может содержать не более 80 символов. Проблема в том, что вы не знаете, какова длина строки. Иногда заполняются...
261 просмотров

Чтение файла, переход по строкам и сохранение данных в массиве.
Я новичок в C++, и у меня проблема с моей программой. Я искал часы и дни, и хотя есть много сообщений, подобных этому, я не могу понять, почему моя программа не работает. У меня есть файл, содержащий данные таким образом. СТРУНА ПОПЛАВОК...
1461 просмотров
schedule 05.03.2023

BEGIN(INITIAL) в синтаксическом анализаторе flex
У меня гибкий вопрос. Я не могу понять, что такое команда BEGIN(INITIAL). Я думаю, что это способ перейти к началу текущего состояния, в котором я уже нахожусь, но я не уверен, что правильно понял. Не могли бы вы объяснить мне простым языком, что...
4914 просмотров
schedule 06.08.2023

Анализ структуры объекта данных из текстовой строки
Я пробовал кое-что с модулем pyparsing, чтобы получить некоторое представление об общем анализе. Мне дали вопрос для интервью (который был отправлен, поэтому я не думаю, что сейчас есть какие-либо этические проблемы), чтобы обработать структуру...
1064 просмотров
schedule 03.04.2023

Python извлекает слова из xml
Как извлечь все слова между <text></text> из большого XML-файла (1,3 ГБ), структура которого выглядит следующим образом: <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/"...
634 просмотров

извлечь именное словосочетание String из дерева синтаксического анализа округа Стэнфорд
Как я могу извлечь именное словосочетание String / Text без POS tags из дерева синтаксического анализа избирательного округа. Я могу извлекать именные фразы без разбора аннотаций, но не могу найти способ извлечь только текст этой именной фразы....
1015 просмотров

Программа yacc выдает ошибку: синтаксическая ошибка
У меня есть следующий файл конфигурации, который мне нужно проанализировать. [ main ] e_type=0x1B Файлы lex (test.l) и yacc (test.y) приведены ниже. test.l %option noyywrap %option yylineno %{ #include <stdio.h> #include...
1119 просмотров
schedule 29.06.2023

Как разработать программу исправления грамматики с использованием методов НЛП?
В рамках моего курсового проекта по НЛП я решил написать программу, которая может исправлять грамматические и семантические ошибки в предложении, имея в виду, что в будущем я могу преобразовать эту программу в мобильное приложение, которое может...
2754 просмотров
schedule 18.12.2022