У меня есть 30911 html-файлов в папке. Мне нужно (1) проверить, содержит ли он тег:
<strong>123</strong>
и (2) извлечь следующее содержимое, пока этот раздел не закончится.
Но я обнаружил проблему в том, что некоторые из них закончились раньше
<strong>567</strong>
И у некоторых из них нет такого тега, который оканчивается перед
<strong>89/strong> or others(that I do not know because I cant check 30K+files)
Он также имеет разные p p_number в каждом файле и иногда не имеет идентификатора.
Итак, сначала я использую BeautifulSoup для поиска, но я не знаю, как сделать следующее извлечение содержимого.
soup = bs4.BeautifulSoup(fo, "lxml")
m = soup.find("strong", string=re.compile("123"))
Кстати, можно ли сохранить контент в формате txt, но он будет выглядеть как в формате html?
line 1
line 2
...
lin 50
Если использовать p.get_text(strip=true), все вместе.
line1 content line2 content ...
line50 content....