Вопросы по теме 'parsing'

Мониторинг прогресса парсера Java SAX
Я пишу синтаксический анализатор SAX на Java для анализа 2,5-гигабайтного XML-файла статей из Википедии. Есть ли способ отслеживать ход синтаксического анализа в Java?
2786 просмотров
schedule 15.05.2024

HTML-парсер в .Net
Возможный дубликат: Как лучше всего анализировать HTML на C #? Я ищу парсер HTML .Net с открытым исходным кодом. Он должен быть с открытым исходным кодом, потому что мне нужно внести некоторые изменения. Погуглил, я нашел Majestic, в...
1217 просмотров
schedule 24.04.2024

Разбор текстового файла в CSV C#
Я новичок в разработке на С#. Мне нужно проанализировать огромный текстовый файл, содержащий несколько строк данных в строке. Результатом будет файл CSV. Формат файла соответствует следующему шаблону: Acronym: TIFFE Name of proposal: Thermal...
9486 просмотров
schedule 03.05.2024

Как отобразить содержимое файла XML в том же макете/формате, в котором оно было получено?
У меня возникли проблемы с отображением содержимого XML-файла в том порядке, в котором он был получен. Например, файл XML содержит узлы page , каждый узел страницы содержит различные подузлы, такие как a , b , c . Макет подузлов страницы...
218 просмотров
schedule 15.04.2024

Использование коллекций Java при анализе файлов журналов
После прочтения файла журнала я хочу передать необработанный журнал (строку) другому компоненту, который только анализирует журнал. Каждая запись журнала должна быть проанализирована. Каждые проанализированные данные должны быть назначены...
149 просмотров
schedule 18.04.2024

Можно ли разобрать вложенные скобки в химических формулах?
Я пытаюсь создать парсер для простых химических формул. Это означает, что у них нет состояний материи, заряда или чего-то подобного. Формулы содержат только строки, представляющие соединения, количества и круглые скобки. После этого ответа на...
307 просмотров
schedule 22.04.2024

::boost::spirit: +alnum_p и дефис
Прямо сейчас у меня есть этот шаблон boost::spirit: str_p("url(") >> !( str_p("'") | str_p("\"") ) >> ("#") >> ((+alnum_p)[assign_a(o_rPaintUri)] >> !( str_p("'") | str_p("\"") ) >>...
202 просмотров
schedule 30.03.2024

BeautifulSoup анализирует содержимое HTML-файла
У меня есть 30911 html-файлов в папке. Мне нужно (1) проверить, содержит ли он тег: <strong>123</strong> и (2) извлечь следующее содержимое, пока этот раздел не закончится. Но я обнаружил проблему в том, что некоторые из них...
1349 просмотров

Небольшой конфликт Shift/Reduce в CUP
У меня возникла небольшая проблема при попытке выяснить, как разрешить конфликт в моем проекте синтаксического анализатора CUP. Я понимаю, почему возникает ошибка, первый терминал VariableDeclStar может быть ID, а также Type, что вызывает конфликт,...
64 просмотров
schedule 29.04.2024

Как реализовать алгоритм разбора CYK в Ruby?
Я пытаюсь реализовать алгоритм CYK в Ruby в соответствии с псевдокодом из Википедии . Моя реализация не может создать правильную таблицу синтаксического анализа. В приведенном ниже методе grammar является членом моего собственного класса...
117 просмотров

Создать небольшой рабочий пример генератора синтаксического анализатора, не полагаясь на спецификацию лексера?
Можно ли создать небольшой рабочий пример генератора синтаксического анализатора, используя yacc, не полагаясь на спецификацию лексера? Большинство спецификаций синтаксического анализатора учебников основаны на лексере, что делает пример...
38 просмотров
schedule 03.05.2024

Парсер ленты Reddit с Google App Script
Вот мой скрипт Google Code.gs: /* Reddit Scraper written by Amit Agarwal */ var REDDIT = "HomeImprovement"; function run() { deleteTriggers_(); /* Fetch Reddit posts every 5 minutes to avoid hitting the reddit and Google...
94 просмотров