Публикации по теме 'beautifulsoup'
Веб-скрейпинг в Python
Введение
В настоящее время мир движется к науке о данных и машинному обучению. Топливом, которое требуется для этих полей, являются данные, и мы получаем данные из двух основных источников:
1) Использование API:
Эти API доступны на различных веб-сайтах, что позволяет извлекать данные. Пример: API графиков Facebook
2) Парсинг веб-страниц:
В этом методе веб-страница очищается для извлечения полезной информации. Этот метод называется веб-скрапингом, веб-сбором или..
Скрапинг последней публикации о вакансии на сайте quikrjob с помощью python
Вы можете выполнить код, нажав кнопку Выполнить в верхней части этой страницы и выбрав Выполнить на Binder . Вы можете внести изменения и сохранить собственную версию блокнота в Jovian , выполнив следующие ячейки:
!pip install jovian --upgrade --quiet
import jovian
# Execute this to save new versions of the notebook
jovian.commit(project="web-scrapping-project")
<IPython.core.display.Javascript object>
[jovian] Updating notebook "pamyaola/web-scrapping-project" on..
Вопросы по теме 'beautifulsoup'
lxml неправильно анализирует Doctype при поиске ссылок
У меня есть синтаксический анализатор BeautifulSoup4 (4.2.1), который собирает все атрибуты href из наших файлов шаблонов, и до сих пор он был просто идеальным. Но с установленным lxml один из наших парней теперь получает;
TypeError: string...
517 просмотров
schedule
19.03.2024
Как искать html-документ, как если бы это был обычный текст в python?
поэтому я пытаюсь создать программу, которая просматривает веб-сайт и ищет на каждой странице определенные фрагменты кода, которые хранятся в большом файле.
Для этого мне нужно извлечь html-код со страницы, а затем создать html-объект — для этого я...
66 просмотров
schedule
21.03.2024
Работа с путями SVG в BeautifulSoup и Python
Я пишу скрипт Python, который будет раскрашивать различные области групп переписи населения моего города (которых 18) разными цветами в соответствии с их соответствующими средними доходами домохозяйств на карте в формате SVG.
Звучит достаточно...
817 просмотров
schedule
03.04.2024
BeautifulSoup анализирует содержимое HTML-файла
У меня есть 30911 html-файлов в папке. Мне нужно (1) проверить, содержит ли он тег:
<strong>123</strong>
и (2) извлечь следующее содержимое, пока этот раздел не закончится.
Но я обнаружил проблему в том, что некоторые из них...
1349 просмотров
schedule
22.04.2024
Python Преобразование HTML в JSON с помощью Soup
Это правила
Теги HTML будут начинаться с любого из следующих <p> , <ol> или <ul> .
Содержимое HTML при обнаружении любого из тегов шага 1 будет содержать только следующие теги: <em> , <strong> или <span...
2509 просмотров
schedule
16.05.2024
Неправильный формат (неправильное количество столбцов) после записи в файлы csv
Мое намерение состоит в том, чтобы получить полный обзор всех профилей вместе с заголовком обзора, именем пользователя, местоположением пользователя и временем публикации на веб-страницах веб-сайта Reliance Jio Reviews и сохранить его в файле CSV....
825 просмотров
schedule
29.05.2024
Python: AttributeError: объект «ResultSet» не имеет атрибута «получить»
Когда я пытаюсь извлечь значение с веб-сайта и поместить его в запрос полезной нагрузки, я получаю сообщение об ошибке:
AttributeError: 'ResultSet' object has no attribute 'get'
Это мой код:
resumeURL='url'...
2436 просмотров
schedule
29.03.2024
Прочтите CSV, если текст совпадает, откройте файл html с соответствующим именем файла и скопируйте в текст
Хорошо, я думаю, мне просто не хватает разъемов, я новичок в Python.
Цель: прочитать CSV. Прочитать все имена файлов в каталоге. Если ROW в индексе (x) = имя файла в каталоге, то откройте HTML-файл и замените текст в индексе (x) на текст из...
68 просмотров
schedule
09.04.2024
Парсинг с помощью BS4, поиск названия компании и идентификатора
В настоящее время я просматриваю веб-страницы с помощью bs4, python . Я хотел бы получить некоторые результаты, чтобы найти 3 переменные: название компании, идентификатор продукта и идентификатор компании.
Это то, что у меня есть
Мой код...
123 просмотров
schedule
10.04.2024
Собрать данные из тега скрипта с помощью BeautifulSoup
Я нуб с библиотекой python beautifoulsoup, и я пытаюсь очистить данные с веб-сайта. я обнаружил, что все данные, которые мне нужны, находятся в теге скрипта, однако я не знаю, как их очистить (см. прикрепленное изображение). Есть ли способ получить...
65 просмотров
schedule
12.06.2024
Неполный HTML-ответ на некоторых сайтах, использующих Requests & BeautifulSoup или Selenium
Я пытаюсь собрать информацию с некоторых URL-адресов, используя Requests и BeautifulSoup в Python. Но некоторые сайты возвращают только частичный HTML-ответ, в котором отсутствует содержимое страницы.
Это код, который не работает:
import...
66 просмотров
schedule
28.04.2024