поэтому я пытаюсь создать программу, которая просматривает веб-сайт и ищет на каждой странице определенные фрагменты кода, которые хранятся в большом файле.
Для этого мне нужно извлечь html-код со страницы, а затем создать html-объект — для этого я использую BeautifulSoup. Сначала я пытался использовать эту функцию, чтобы фактически сопоставить код с исходным кодом html.
def textsearch(soup, exploit):
code = soup.find(text = re.compile(exploit))
if code == None:
print "Coudln't find the bad stuff!\n"
return False
else:
print "Found the bad code!\n"
return True
Прочитав документацию по BS4, я понял, что это не сработает, поэтому я начал работать над синтаксическим анализатором, чтобы взять «эксплойт» и преобразовать его в текст. Проблема в том, что не все эксплойты имеют такой формат (некоторые из них являются сценариями javascript), поэтому было бы лучше, если бы я мог рассматривать весь исходный html как один большой «текстовый документ» с точными символами, которые отображаются в источнике, но нет форматирование, а затем просто найдите любую совпадающую последовательность символов.
Есть ли хороший модуль для превращения источника html, полученного из Интернета, в такой объект?