Python 为特定文件类型爬网

Python 为特定文件类型爬网,python,screen-scraping,web-crawler,Python,Screen Scraping,Web Crawler,作为研究的一部分,我需要尽可能多地通过web下载免费可用的RDF(ResourceDescriptionFramework-*.RDF)文件。Python中最理想的库/框架是什么 有没有能够做到这一点的网站/搜索引擎?我试过谷歌文件类型:RDF搜索。最初,谷歌会显示6960000条搜索结果。但是,当您浏览单个结果页面时,结果会急剧下降到205个结果。我写了一个脚本来截取和下载文件,但是205对于我的研究来说是不够的,而且我确信网上有205多个文件。所以,我真的需要一个文件爬虫。我想知道是否有任何

作为研究的一部分,我需要尽可能多地通过web下载免费可用的RDF(ResourceDescriptionFramework-*.RDF)文件。Python中最理想的库/框架是什么


有没有能够做到这一点的网站/搜索引擎?我试过谷歌文件类型:RDF搜索。最初,谷歌会显示6960000条搜索结果。但是,当您浏览单个结果页面时,结果会急剧下降到205个结果。我写了一个脚本来截取和下载文件,但是205对于我的研究来说是不够的,而且我确信网上有205多个文件。所以,我真的需要一个文件爬虫。我想知道是否有任何在线或离线工具可用于此目的,或者Python中的框架/示例脚本可用于此目的。非常感谢您在这方面提供的任何帮助。

您是否注意到页面底部有类似“google已隐藏类似结果,请单击此处显示所有结果”的文字?可能会有帮助。

从Web上抓取RDF内容与抓取任何其他内容没有什么不同。也就是说,如果您的问题是“什么是好的python Web爬虫”,那么您应该阅读以下问题:。如果你的问题与用python处理RDF有关,那么有几个选项,其中一个是我知道我的回答有点晚了——但对于未来的搜索者来说——这是RDF文档的一个很好的索引

teleport pro,虽然它可能无法从谷歌复制,但太大了,它可能可以方便地代理返回谷歌结果的站点,我知道,事实上,如果我愿意,我可以在一天内下载10000个PDF。它有文件类型说明符和许多选项。

这里有一个解决方法:

从chrome extensions或类似程序获取“下载主机”

在谷歌或其他网站上搜索结果,将谷歌设置为每页100

选择-显示所有文件

写入文件扩展名,.rdf按enter键

新闻下载


每次点击可以有100个文件,不错。

好问题,我需要做类似的事情。我知道teleport pro可以抓取文件类型,但可能不是从google.com抓取的,也许还有另一个网站可以以dld的方式列出google.com的结果。。。teleport pro可以抓取PDF的网站,我有100 mb的midi文件