Web scraping Openrefine不会获取整个html代码

Web scraping Openrefine不会获取整个html代码,web-scraping,openrefine,grel,Web Scraping,Openrefine,Grel,我一直在获取Wiley中的学术文章以收集作者信息,但获取的列并不包含所有代码 例如,如果我检查一个站点(例如),当有100多个span标记时,我获取的结果只有不到30个span标记。一些元标记也丢失了 我特别寻找元素,例如,带有引文作者和引文作者机构的元标记。您不能说是从该URL创建项目还是通过获取来添加列。对于后者,我使用OpenRefine 3.4.1获得403禁止。是否发送非默认标题?我可以向您保证,Refine会保留所有发送的内容,因此我希望了解网站可能没有发送您认为的内容的原因(例如,

我一直在获取Wiley中的学术文章以收集作者信息,但获取的列并不包含所有代码

例如,如果我检查一个站点(例如),当有100多个span标记时,我获取的结果只有不到30个span标记。一些元标记也丢失了


我特别寻找元素,例如,带有引文作者和引文作者机构的元标记。

您不能说是从该URL创建项目还是通过获取来添加列。对于后者,我使用OpenRefine 3.4.1获得403禁止。是否发送非默认标题?我可以向您保证,Refine会保留所有发送的内容,因此我希望了解网站可能没有发送您认为的内容的原因(例如,反刮擦措施)。@TomMorris我通过获取添加了一个专栏,但没有收到任何错误(例如403):我捕获了html代码。可能Wiley阻止了整个刮片。OpenRefine默认情况下不会捕获错误。尝试单击“获取URL”对话框上的“存储错误”复选框。我之前的留言应该是“我会看看原因”。@TomMorris谢谢。我尝试使用Python,但得到了403错误。虽然使用用户代理可以避免错误,但仍然无法获取完整的代码。Openrefine或Python能绕过这些反措施吗?
$curl-Lhttps://onlinelibrary.wiley.com/doi/10.1111/1475-6773.13088
返回“Wiley Online Library需要cookies来验证和使用其他网站功能;因此,必须启用Cookie才能浏览站点。有关Wiley如何使用cookie的详细信息,请参见我们的隐私策略[。”OpenRefine不支持cookie,但Python可以配置为。