Scrapy 爬网时遇到trustAsHtmlFilter_Scrapy_Web Crawler_Scrapy Spider

Scrapy 爬网时遇到trustAsHtmlFilter

scrapy web-crawler

Scrapy 爬网时遇到trustAsHtmlFilter,scrapy,web-crawler,scrapy-spider,Scrapy,Web Crawler,Scrapy Spider,当我尝试爬网此页面时：使用然后做一个测试 view(response) 我看到页面上显示了trustAsHtmlFilter。页面布局在那里，但没有显示所有内容。所以我猜网站使用这个过滤器来阻止我的爬虫我用谷歌搜索了一下，看起来这个过滤器来自AngularJS？我不确定因此，我的问题是：触发此筛选器的原因可能是什么？几天前我还在爬这个页面，那时还不错有没有办法绕过这个问题谢谢大家! 如果在没有javascript的浏览器中打开url，您将得到相同的“错误”。您正在查找的内容是使用

当我尝试爬网此页面时：

使用

然后做一个测试

view(response)

我看到页面上显示了trustAsHtmlFilter。页面布局在那里，但没有显示所有内容。所以我猜网站使用这个过滤器来阻止我的爬虫

我用谷歌搜索了一下，看起来这个过滤器来自AngularJS？我不确定

因此，我的问题是：

触发此筛选器的原因可能是什么？几天前我还在爬这个页面，那时还不错

有没有办法绕过这个问题

谢谢大家!

如果在没有javascript的浏览器中打开url，您将得到相同的“错误”。您正在查找的内容是使用javascript动态生成的。因此，您需要能够处理js以获取内容

第一个选项通常是尝试识别javascript生成的请求。如果你能做到这一点，你可以从scrapy发送同样的请求。如果您不能做到这一点，下一个选项通常是使用一些带有javascript/浏览器仿真的包或类似的东西。类似于ScrapyJS或Scrapy+Selenium。

您是否尝试过在请求中使用

用户代理<代码>scrapy shell-s用户_AGENT='USER AGENT''http://www.example.com“

我用过它，但还是被那个过滤器挡住了

view(response)