Web scraping Openrefine不会获取整个html代码_Web Scraping_Openrefine_Grel

Web scraping Openrefine不会获取整个html代码

web-scraping

Web scraping Openrefine不会获取整个html代码,web-scraping,openrefine,grel,Web Scraping,Openrefine,Grel,我一直在获取Wiley中的学术文章以收集作者信息，但获取的列并不包含所有代码例如，如果我检查一个站点（例如），当有100多个span标记时，我获取的结果只有不到30个span标记。一些元标记也丢失了我特别寻找元素，例如，带有引文作者和引文作者机构的元标记。您不能说是从该URL创建项目还是通过获取来添加列。对于后者，我使用OpenRefine 3.4.1获得403禁止。是否发送非默认标题？我可以向您保证，Refine会保留所有发送的内容，因此我希望了解网站可能没有发送您认为的内容的原因（例如，

我一直在获取Wiley中的学术文章以收集作者信息，但获取的列并不包含所有代码

例如，如果我检查一个站点（例如），当有100多个span标记时，我获取的结果只有不到30个span标记。一些元标记也丢失了

我特别寻找元素，例如，带有引文作者和引文作者机构的元标记。

您不能说是从该URL创建项目还是通过获取来添加列。对于后者，我使用OpenRefine 3.4.1获得403禁止。是否发送非默认标题？我可以向您保证，Refine会保留所有发送的内容，因此我希望了解网站可能没有发送您认为的内容的原因（例如，反刮擦措施）。@TomMorris我通过获取添加了一个专栏，但没有收到任何错误（例如403）：我捕获了html代码。可能Wiley阻止了整个刮片。OpenRefine默认情况下不会捕获错误。尝试单击“获取URL”对话框上的“存储错误”复选框。我之前的留言应该是“我会看看原因”。@TomMorris谢谢。我尝试使用Python，但得到了403错误。虽然使用用户代理可以避免错误，但仍然无法获取完整的代码。Openrefine或Python能绕过这些反措施吗？

$curl-Lhttps://onlinelibrary.wiley.com/doi/10.1111/1475-6773.13088

返回“Wiley Online Library需要cookies来验证和使用其他网站功能；因此，必须启用Cookie才能浏览站点。有关Wiley如何使用cookie的详细信息，请参见我们的隐私策略[。”OpenRefine不支持cookie，但Python可以配置为。