Публикации по теме 'beautifulsoup'


Веб-скрейпинг в Python
Введение В настоящее время мир движется к науке о данных и машинному обучению. Топливом, которое требуется для этих полей, являются данные, и мы получаем данные из двух основных источников: 1) Использование API: Эти API доступны на различных веб-сайтах, что позволяет извлекать данные. Пример: API графиков Facebook 2) Парсинг веб-страниц: В этом методе веб-страница очищается для извлечения полезной информации. Этот метод называется веб-скрапингом, веб-сбором или..

Скрапинг последней публикации о вакансии на сайте quikrjob с помощью python
Вы можете выполнить код, нажав кнопку Выполнить в верхней части этой страницы и выбрав Выполнить на Binder . Вы можете внести изменения и сохранить собственную версию блокнота в Jovian , выполнив следующие ячейки: !pip install jovian --upgrade --quiet import jovian # Execute this to save new versions of the notebook jovian.commit(project="web-scrapping-project") <IPython.core.display.Javascript object> [jovian] Updating notebook "pamyaola/web-scrapping-project" on..

Вопросы по теме 'beautifulsoup'

lxml неправильно анализирует Doctype при поиске ссылок
У меня есть синтаксический анализатор BeautifulSoup4 (4.2.1), который собирает все атрибуты href из наших файлов шаблонов, и до сих пор он был просто идеальным. Но с установленным lxml один из наших парней теперь получает; TypeError: string...
517 просмотров
schedule 19.03.2024

Как искать html-документ, как если бы это был обычный текст в python?
поэтому я пытаюсь создать программу, которая просматривает веб-сайт и ищет на каждой странице определенные фрагменты кода, которые хранятся в большом файле. Для этого мне нужно извлечь html-код со страницы, а затем создать html-объект — для этого я...
66 просмотров
schedule 21.03.2024

Работа с путями SVG в BeautifulSoup и Python
Я пишу скрипт Python, который будет раскрашивать различные области групп переписи населения моего города (которых 18) разными цветами в соответствии с их соответствующими средними доходами домохозяйств на карте в формате SVG. Звучит достаточно...
817 просмотров
schedule 03.04.2024

BeautifulSoup анализирует содержимое HTML-файла
У меня есть 30911 html-файлов в папке. Мне нужно (1) проверить, содержит ли он тег: <strong>123</strong> и (2) извлечь следующее содержимое, пока этот раздел не закончится. Но я обнаружил проблему в том, что некоторые из них...
1349 просмотров

Python Преобразование HTML в JSON с помощью Soup
Это правила Теги HTML будут начинаться с любого из следующих <p> , <ol> или <ul> . Содержимое HTML при обнаружении любого из тегов шага 1 будет содержать только следующие теги: <em> , <strong> или <span...
2509 просмотров
schedule 16.05.2024

Неправильный формат (неправильное количество столбцов) после записи в файлы csv
Мое намерение состоит в том, чтобы получить полный обзор всех профилей вместе с заголовком обзора, именем пользователя, местоположением пользователя и временем публикации на веб-страницах веб-сайта Reliance Jio Reviews и сохранить его в файле CSV....
825 просмотров

Python: AttributeError: объект «ResultSet» не имеет атрибута «получить»
Когда я пытаюсь извлечь значение с веб-сайта и поместить его в запрос полезной нагрузки, я получаю сообщение об ошибке: AttributeError: 'ResultSet' object has no attribute 'get' Это мой код: resumeURL='url'...
2436 просмотров
schedule 29.03.2024

Прочтите CSV, если текст совпадает, откройте файл html с соответствующим именем файла и скопируйте в текст
Хорошо, я думаю, мне просто не хватает разъемов, я новичок в Python. Цель: прочитать CSV. Прочитать все имена файлов в каталоге. Если ROW в индексе (x) = имя файла в каталоге, то откройте HTML-файл и замените текст в индексе (x) на текст из...
68 просмотров
schedule 09.04.2024

Парсинг с помощью BS4, поиск названия компании и идентификатора
В настоящее время я просматриваю веб-страницы с помощью bs4, python . Я хотел бы получить некоторые результаты, чтобы найти 3 переменные: название компании, идентификатор продукта и идентификатор компании. Это то, что у меня есть Мой код...
123 просмотров
schedule 10.04.2024

Собрать данные из тега скрипта с помощью BeautifulSoup
Я нуб с библиотекой python beautifoulsoup, и я пытаюсь очистить данные с веб-сайта. я обнаружил, что все данные, которые мне нужны, находятся в теге скрипта, однако я не знаю, как их очистить (см. прикрепленное изображение). Есть ли способ получить...
65 просмотров
schedule 12.06.2024

Неполный HTML-ответ на некоторых сайтах, использующих Requests & BeautifulSoup или Selenium
Я пытаюсь собрать информацию с некоторых URL-адресов, используя Requests и BeautifulSoup в Python. Но некоторые сайты возвращают только частичный HTML-ответ, в котором отсутствует содержимое страницы. Это код, который не работает: import...
66 просмотров