Scrapy 爬网时遇到trustAsHtmlFilter

Scrapy 爬网时遇到trustAsHtmlFilter,scrapy,web-crawler,scrapy-spider,Scrapy,Web Crawler,Scrapy Spider,当我尝试爬网此页面时: 使用 然后做一个测试 view(response) 我看到页面上显示了trustAsHtmlFilter。页面布局在那里,但没有显示所有内容。所以我猜网站使用这个过滤器来阻止我的爬虫 我用谷歌搜索了一下,看起来这个过滤器来自AngularJS?我不确定 因此,我的问题是: 触发此筛选器的原因可能是什么?几天前我还在爬这个页面,那时还不错 有没有办法绕过这个问题 谢谢大家! 如果在没有javascript的浏览器中打开url,您将得到相同的“错误”。您正在查找的内容是使用

当我尝试爬网此页面时:

使用

然后做一个测试

view(response)
我看到页面上显示了trustAsHtmlFilter。页面布局在那里,但没有显示所有内容。所以我猜网站使用这个过滤器来阻止我的爬虫

我用谷歌搜索了一下,看起来这个过滤器来自AngularJS?我不确定

因此,我的问题是:

  • 触发此筛选器的原因可能是什么?几天前我还在爬这个页面,那时还不错

  • 有没有办法绕过这个问题


  • 谢谢大家!

    如果在没有javascript的浏览器中打开url,您将得到相同的“错误”。您正在查找的内容是使用javascript动态生成的。因此,您需要能够处理js以获取内容


    第一个选项通常是尝试识别javascript生成的请求。如果你能做到这一点,你可以从scrapy发送同样的请求。如果您不能做到这一点,下一个选项通常是使用一些带有javascript/浏览器仿真的包或类似的东西。类似于ScrapyJS或Scrapy+Selenium。

    您是否尝试过在请求中使用
    用户代理<代码>scrapy shell-s用户_AGENT='USER AGENT''http://www.example.com“
    我用过它,但还是被那个过滤器挡住了
    view(response)