Вопросы по теме 'text-parsing'
Создайте отличный синтаксический анализатор — извлеките соответствующий текст из HTML/блогов
Я пытаюсь создать обобщенный анализатор HTML, который хорошо работает с сообщениями в блогах. Я хочу указать своему синтаксическому анализатору URL-адрес конкретной записи и вернуть чистый текст самого сообщения. Мой основной подход (от python)...
5842 просмотров
schedule
30.01.2023
Чтение следующей строки с помощью LINQ и File.ReadAllLines ()
У меня есть файл, представляющий элементы, в одной строке идет GUID элемента, за которым следуют 5 строк, описывающих элемент.
Пример:
Line 1: Guid=8e2803d1-444a-4893-a23d-d3b4ba51baee name= line1
Line 2: Item details = bla bla
.
.
Line...
1634 просмотров
schedule
06.08.2022
Как сделать круговой сдвиг строк в bash?
У меня есть домашнее задание, в котором мне нужно вводить данные из файла и постоянно удалять первое слово в строке и добавлять его в конец строки, пока не будут выполнены все комбинации.
Я действительно не знаю, с чего начать, и был бы благодарен...
5197 просмотров
schedule
12.03.2023
Код/подход к гольфу: найти строку в текстовом файле со слишком большим количеством столбцов
Учитывая текстовый файл, который должен содержать 10 столбцов с разделителями табуляции (т.е. 9 вкладок), я хотел бы найти все строки, которые имеют более 10 столбцов (более 9 вкладок). Каждый ряд заканчивается CR-LF.
Не предполагайте ничего о...
316 просмотров
schedule
25.09.2022
Разбор многострочных данных в Perl
У меня есть некоторые данные, которые мне нужно проанализировать. Данные многострочные, и каждый блок отделяется новой строкой. Итак, это что-то вроде этого
Property 1: 1234
Property 2: 34546
Property 3: ACBGD
Property 1: 1234
Property 4: 4567...
8532 просмотров
schedule
06.07.2023
Как разобрать и загрузить текстовый файл с Core Data?
Я прибегаю к вашему экспертному совету, потому что я как бы «новичок» в Objective-C, я прочитал пару книг и документов (а именно книги Аарона Хиллегасса и Стивена Г. Кочана), но некоторые вещи мне все еще неясны, для отсутствие практики. Чтобы вы...
440 просмотров
schedule
14.03.2023
Превратите грамматику в грамматику LL1
Я готовлюсь к завтрашнему экзамену и пересматриваю прошлогодний.
В тесте была грамматика.
Expression -> Foo "+" Bar "end"
Foo -> [a-z0-9]+ | Expression
Bar -> Expression Foo | a*b*c+
Я пытался и часами изучал, как это сделать, но...
657 просмотров
schedule
09.09.2022
Разделение большого текстового файла разделителем в Python
Я предполагаю, что это будет простая задача, но я не могу найти то, что ищу именно в предыдущих вопросах StackOverflow, а здесь идет...
У меня есть большие текстовые файлы в собственном формате, которые выглядят примерно так:
:Entry
- Name
John...
17459 просмотров
schedule
16.12.2022
PHP не может прочитать форматированный текст из преобразования COM .doc в .txt
У меня есть много файлов .doc со спецификациями входа в базу данных. Мне нужно проанализировать все эти документы и создать записи с информацией в документах. Я пытался использовать подход COM. Файл имеет обычный текст вверху и внизу страницы......
373 просмотров
schedule
16.08.2022
Как Google+ анализирует URL-адреса из сообщений?
Похоже, что Google+ использует регулярные выражения The-King-of-URL-Regexes для анализа посторонних сообщений пользователей. Он не требует протоколов и позволяет игнорировать знаки препинания. Например: если я публикую "Мне нравится...
411 просмотров
schedule
09.04.2023
Целевой текст без тегов с помощью Nokogiri
У меня есть очень голый HTML, который я пытаюсь проанализировать с помощью Nokogiri (на Ruby):
<span>Address</span><br />
123 Main Street<br />
Sometown<br />
<span>Telephone</span><br />
<a...
1584 просмотров
schedule
06.10.2022
Чтение параметров из текстового файла в рабочую область
У меня есть файл со следующей информацией:
% ---------------------- location details --------------------------
%
% lat : latitude [minimum = -90, maximum = 90, unit =
% degrees north]
% lon : longitude [ minimum = -360, maximum = 360,...
2617 просмотров
schedule
11.04.2022
Сопоставьте строку с фиксированными столбцами как можно дольше
Я собираюсь разобрать базовый файл позиций из устаревшей системы. Каждый столбец в файле имеет фиксированную ширину, а каждая строка может содержать не более 80 символов. Проблема в том, что вы не знаете, какова длина строки. Иногда заполняются...
261 просмотров
schedule
10.04.2023
Чтение файла, переход по строкам и сохранение данных в массиве.
Я новичок в C++, и у меня проблема с моей программой. Я искал часы и дни, и хотя есть много сообщений, подобных этому, я не могу понять, почему моя программа не работает.
У меня есть файл, содержащий данные таким образом.
СТРУНА ПОПЛАВОК...
1461 просмотров
schedule
05.03.2023
BEGIN(INITIAL) в синтаксическом анализаторе flex
У меня гибкий вопрос. Я не могу понять, что такое команда BEGIN(INITIAL). Я думаю, что это способ перейти к началу текущего состояния, в котором я уже нахожусь, но я не уверен, что правильно понял. Не могли бы вы объяснить мне простым языком, что...
4914 просмотров
schedule
06.08.2023
Анализ структуры объекта данных из текстовой строки
Я пробовал кое-что с модулем pyparsing, чтобы получить некоторое представление об общем анализе. Мне дали вопрос для интервью (который был отправлен, поэтому я не думаю, что сейчас есть какие-либо этические проблемы), чтобы обработать структуру...
1064 просмотров
schedule
03.04.2023
Python извлекает слова из xml
Как извлечь все слова между <text></text> из большого XML-файла (1,3 ГБ), структура которого выглядит следующим образом:
<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/"...
634 просмотров
schedule
30.12.2023
извлечь именное словосочетание String из дерева синтаксического анализа округа Стэнфорд
Как я могу извлечь именное словосочетание String / Text без POS tags из дерева синтаксического анализа избирательного округа.
Я могу извлекать именные фразы без разбора аннотаций, но не могу найти способ извлечь только текст этой именной фразы....
1015 просмотров
schedule
27.02.2023
Программа yacc выдает ошибку: синтаксическая ошибка
У меня есть следующий файл конфигурации, который мне нужно проанализировать.
[ main ]
e_type=0x1B
Файлы lex (test.l) и yacc (test.y) приведены ниже.
test.l
%option noyywrap
%option yylineno
%{
#include <stdio.h>
#include...
1119 просмотров
schedule
29.06.2023
Как разработать программу исправления грамматики с использованием методов НЛП?
В рамках моего курсового проекта по НЛП я решил написать программу, которая может исправлять грамматические и семантические ошибки в предложении, имея в виду, что в будущем я могу преобразовать эту программу в мобильное приложение, которое может...
2754 просмотров
schedule
18.12.2022