Научитесь извлекать ценную информацию о продуктах из списков ноутбуков Best Buy и вносить свой вклад в сообщество данных на Kaggle.

Введение:

В эпоху принятия решений, основанных на данных, поиск собственных данных может изменить правила игры. Хотя такие веб-сайты, как Kaggle.com, предлагают широкий спектр наборов данных, ничто не заменит опыт самостоятельного сбора и организации данных. Кроме того, публикация ваших результатов на Kaggle может помочь другим в их усилиях, основанных на данных.

В этой статье мы покажем вам, как использовать Octoparse 8, мощный, но удобный инструмент веб-скрейпинга, для извлечения ценной информации о ноутбуках с веб-сайта Best Buy. Наше пошаговое руководство проведет вас через весь процесс, сделав его интуитивно понятным, легким для чтения и увлекательным. Итак, приступим!

URL для ноутбуков:

https://www.bestbuy.com/site/searchpage.jsp?st=laptop&_dyncharset=UTF-8&_dynSessConf=&id=pcat17071&type=page&sc=Global&cp=1&nrp=&sp=&qp=&list=n&af=true&iht=y&usc=All+Categories&ks =960&ключи=ключи

Основные шаги:

  1. Создать страницу перехода на веб-страницу — чтобы открыть целевой веб-сайт.
  2. Автоматическое определение веб-страницы — для создания рабочего процесса
  3. Настройте прокрутку страницы — чтобы лучше загружать данные на веб-страницу.
  4. Clean Data — чтобы получить рейтинг продукта в виде текста
  5. Запустите задачу — чтобы получить целевые данные

Шаг 1. Создайте страницу перехода на веб-страницу, чтобы открыть целевой веб-сайт.

  • Введите целевой URL-адрес для ноутбуков на домашней странице Octoparse и нажмите «Пуск».

Шаг 2. Автоматическое определение веб-страницы — для создания рабочего процесса

  • Нажмите «Автоматическое определение данных веб-страницы» и дождитесь его завершения.

  • Перейдите к «Предварительный просмотр данных», чтобы убедиться, что вы в порядке с текущими выходными данными.

  • Удалите ненужные поля данных напрямую, щелкнув значок удаления рядом с именем поля.
  • Измените имена полей данных, дважды щелкнув заголовки.
  • Снимите флажок «Добавить прокрутку страницы».

  • Нажмите «Создать рабочий процесс».

Шаг 3. Настройте прокрутку страницы — для лучшей загрузки данных на веб-страницу.

  • Нажмите «Перейти на веб-страницу» › «Панель параметров».
  • Установите флажок «Прокрутить страницу вниз после ее загрузки».
  • Установите режим прокрутки как «для одного экрана».
  • Нажмите «Применить», чтобы сохранить настройки.

Шаг 4: Очистить данные — чтобы получить рейтинг продукта в виде текста

  • Нажмите на оценку любого товара.
  • Нажмите «Извлечь текст выбранного элемента» на панели «Советы».

  • Предварительный просмотр строки:

  • Выберите «Настроить XPath».

  • Измените XPath поля Rating следующим образом: //div[contains(@class,’c-ratings-reviews-small’)]/p

  • Нажмите «Применить», чтобы сохранить настройки.
  • Нажмите кнопку «Дополнительно» рядом с названием поля данных.
  • Выберите «Очистить данные».

  • Нажмите «Добавить шаг» › «Сопоставить с регулярным выражением».

  • Введите регулярное выражение в следующем виде: (?‹=Рейтинг )(.+?)(?=из)

  • Нажмите «Применить», чтобы сохранить результаты очистки данных.

Шаг 5: Запустите задачу — чтобы получить целевые данные

  • Нажмите «Сохранить» и нажмите «Выполнить» в правом верхнем углу.
  • Выберите «Запустить на вашем устройстве», чтобы запустить задачу на своем компьютере, или выберите «Запустить в облаке», чтобы запустить

Поздравляем! Теперь вы успешно извлекли данные о ноутбуках из Best Buy с помощью Octoparse 8. Имея под рукой эту ценную информацию, вы можете анализировать и сравнивать различные модели ноутбуков, их цены, рейтинги и варианты доставки. Эти данные могут быть необходимы для различных целей, таких как исследование рынка, анализ конкурентов или даже принятие обоснованного решения о покупке.

Не забудьте поделиться своим извлеченным набором данных на Kaggle.com, внося свой вклад в сообщество данных и помогая другим энтузиастам данных в их проектах. Чем большим объемом данных мы делимся, тем больше мы можем извлечь выгоды из коллективных знаний и идей.

Продолжайте изучать новые способы сбора данных и оставайтесь на шаг впереди в этом мире, управляемом данными. Удачного скрейпинга!