Искатель Abot Пропустить CrawledPage HttpWebRequest/Response

Я использую Abot таким образом, что у меня есть приложение WPF, которое отображает элемент управления браузером (CefSharp). Пользователь входит в систему, и любая возможная пользовательская аутентификация, используемая сайтом, будет работать при сканировании так же, как если бы пользователь фактически просматривал сайт.

Таким образом, когда я сканирую, я хочу использовать этот элемент управления браузером, чтобы сделать запрос и просто вернуть данные страницы. Поэтому я реализовал свой собственный PageRequester, полный список ниже.

Проблема в том, что с CefSharp, как и с другими элементами управления браузера, невозможно получить HttpWebRequest/Response, связанный с CrawlPage. Без установки этих двух свойств Abot не продолжит сканирование.

Есть ли что-то, что я могу сделать, чтобы обойти эту проблему?

Список кодов:

using Abot.Core;
using Abot.Poco;
using CefSharp.Wpf;
using System;
using System.Net;
using System.Text;
using System.Threading;

public class CefPageRequester : IPageRequester
{
    private MainWindowDataContext DataContext;
    private ChromiumWebBrowser ChromiumWebBrowser;
    private CrawlConfiguration CrawlConfig;

    private volatile bool _navigationCompleted;
    private string _pageSource;

    public CefPageRequester(MainWindowDataContext dataContext, ChromiumWebBrowser chromiumWebBrowser, CrawlConfiguration crawlConfig)
    {
        this.DataContext = dataContext;
        this.ChromiumWebBrowser = chromiumWebBrowser;
        this.CrawlConfig = crawlConfig;

        this.ChromiumWebBrowser.FrameLoadEnd += ChromiumWebBrowser_FrameLoadEnd;
    }

    public CrawledPage MakeRequest(Uri uri)
    {
        return this.MakeRequest(uri, cp => new CrawlDecision() { Allow = true });
    }

    public CrawledPage MakeRequest(Uri uri, Func<CrawledPage, CrawlDecision> shouldDownloadContent)
    {
        if (uri == null)
            throw new ArgumentNullException("uri");

        CrawledPage crawledPage = new CrawledPage(uri);

        try
        {
            //the browser control is bound to the address of the data context, 
            //if we set the address directly it breaks for some reason, although it's a two way binding.
            this.DataContext.Address = uri.AbsolutePath;

            crawledPage.RequestStarted = DateTime.Now;
            crawledPage.DownloadContentStarted = crawledPage.RequestStarted;

            while (!_navigationCompleted)
                Thread.CurrentThread.Join(10);
        }
        catch (WebException e)
        {
            crawledPage.WebException = e;
        }
        catch
        {
            //bad luck, we should log this.
        }
        finally
        {
            //TODO must add these properties!!
            //crawledPage.HttpWebRequest = request;
            //crawledPage.HttpWebResponse = response;
            crawledPage.RequestCompleted = DateTime.Now;
            crawledPage.DownloadContentCompleted = crawledPage.RequestCompleted;
            if (!String.IsNullOrWhiteSpace(_pageSource))
                crawledPage.Content = this.GetContent("UTF-8", _pageSource);

            _navigationCompleted = false;
            _pageSource = null;
        }

        return crawledPage;
    }

    private void ChromiumWebBrowser_FrameLoadEnd(object sender, CefSharp.FrameLoadEndEventArgs e)
    {
        if (!e.IsMainFrame)
            return;

        this.ChromiumWebBrowser.Dispatcher.BeginInvoke(
            (Action)(() =>
            {
                _pageSource = this.ChromiumWebBrowser.GetSourceAsync().Result;
                _navigationCompleted = true;
            }));
    }

    private PageContent GetContent(string charset, string html)
    {
        PageContent pageContent = new PageContent();
        pageContent.Charset = charset;
        pageContent.Encoding = this.GetEncoding(charset);
        pageContent.Text = html;
        pageContent.Bytes = pageContent.Encoding.GetBytes(html);

        return pageContent;
    }

    private Encoding GetEncoding(string charset)
    {
        Encoding e = Encoding.UTF8;
        if (charset != null)
        {
            try
            {
                e = Encoding.GetEncoding(charset);
            }
            catch { }
        }

        return e;
    }
}

Вопрос также можно сформулировать так: как избежать создания HttpWebResponse из потока? Что кажется невозможным, учитывая, что MSDN говорит :

Никогда не следует напрямую создавать экземпляр класса HttpWebResponse. Вместо этого используйте экземпляр, возвращаемый вызовом HttpWebRequest.GetResponse.

Мне пришлось бы фактически опубликовать запрос, чтобы получить ответ, чего я хочу избежать, имея элемент управления веб-браузером.

h.alex 03.04.2015 источник

Ответы (1)

arrow_upward
1
arrow_downward

Как вы знаете, многие функции зависят от установленных HttpWebRequest и HttpWebResponse. Я заказал для вас несколько вариантов навскидку...

1) Рефакторинг Abot для использования некоторой абстракции POCO вместо этих классов. Тогда просто используйте преобразователь, который преобразует настоящие HttpWebRequest и HttpWebResponse в эти типы POCO, а также преобразователь, который преобразует ответ объектов вашего браузера в эти POCO.

2) Создайте CustomHttpWebRequest и CustomHttpWebResponse, которые наследуются от классов .net, чтобы вы могли получить доступ/переопределить общедоступные/защищенные свойства, которые могут позволить вам вручную создать экземпляр, моделирующий запрос/ответ, который возвращает вам ваш компонент браузера. Я знаю, что это может быть сложно, но может сработать (я никогда этого не делал, поэтому не могу сказать наверняка).

3) [Я НЕНАВИЖУ ЭТУ ИДЕЮ. Это ДОЛЖНО БЫТЬ ВАШИМ ПОСЛЕДНИМ РЕЗОРТОМ] Создайте реальный экземпляр этих классов и используйте отражение, чтобы установить любые свойства/значения, которые необходимо установить для удовлетворения всех применений Abot.

4) [Я НЕНАВИЖУ ЭТУ ИДЕЮ ЕЩЕ ХУЖЕ] Используйте MS Fakes для создания прокладок/заглушек/фейков для свойств и методов HttpWebRequest и HttpWebResponse. Затем вы можете настроить его для возврата ваших значений. Этот инструмент обычно используется только для тестирования, но я считаю, что его можно использовать для производственного кода, если вы в отчаянии, не заботитесь о производительности и/или безумны.

Я также включил ужасные идеи на всякий случай, если они помогут вам задуматься. Надеюсь, это поможет...

sjdirect 03.04.2015

comment

Итак, рефакторинг оказался проще, чем я себе представлял, я мог бы изучить это, прежде чем спрашивать. 2 невозможно, и я не опускался ниже. - h.alex; 03.04.2015

Искатель Abot Пропустить CrawledPage HttpWebRequest/Response

Ответы (1)

Вопросы по теме