谷歌学者与Matlab

谷歌学者与Matlab,matlab,google-scholar,Matlab,Google Scholar,我想通过matlab脚本自动从Google Scholar获取一些数据。我对Google Scholar的Bibtex条目和正向引用功能等数据最感兴趣。然而,似乎有,有没有一种方法可以使用Matlab从Google Scholar自动获取书目数据?是否已经有一些工具或代码可用于此目的?如果您真的想使用Matlab(我不建议这样做),那么您可以查看一些不同的示例,实际上已经从Google Scholar获得了一些信息。基本上,只要很好的“matlab网页抓取”就可以了 我个人建议使用Python来

我想通过matlab脚本自动从Google Scholar获取一些数据。我对Google Scholar的Bibtex条目和正向引用功能等数据最感兴趣。然而,似乎有,有没有一种方法可以使用Matlab从Google Scholar自动获取书目数据?是否已经有一些工具或代码可用于此目的?

如果您真的想使用Matlab(我不建议这样做),那么您可以查看一些不同的示例,实际上已经从Google Scholar获得了一些信息。基本上,只要很好的“matlab网页抓取”就可以了


我个人建议使用Python来实现这一点,因为Python更适合于一般编程IMHO。例如,我们已经用Python做了类似的事情。但是,如果您了解Matlab并且对Python没有任何兴趣/时间,那么请按照第一段中的链接进行操作。

我在进一步研究该项目时发现了一个警告

Google Scholar没有API是有原因的。使用机器人从Google Scholar收集信息是违反EULA的。其基本思想是,任何试图与Google Scholar交互的程序都不能以与最终用户不同的方式进行交互。换句话说,您可以自动获取大量数据。尽管@JustinPeel的答案中的脚本并不一定违反条款,但将其放入一个大规模循环中,可能会导致错误

以下方面的一些具体观点:

您不得,也不得允许任何第三方:

(i) 通过任何自动、欺骗、欺诈或其他无效手段(包括但不限于点击垃圾邮件、机器人、宏程序和互联网代理),直接或间接生成查询、结果印象或结果点击

(l) “爬行”、“爬行器”、索引或以任何非暂时性方式存储或缓存从服务中获得的信息(包括但不限于结果或其任何部分、副本或衍生物)

如果你看看谷歌学者,你也可以看到任何类型的机器人都是不允许的


我从一些同事那里听说,如果你试图规避这一政策,你会遇到麻烦,这可能会导致你的实验室无法访问Google Scholar。

由于没有API,也没有结构化格式,你最终会得到大量重复数据,而且没有可靠提取数据的好方法。但是用Mathematica。Sjoerd C.deVries在他的回答中说明了它如何会导致许多可疑的结果。@yoda我创建这个工具主要是因为我领导一个调查团队(后来我自己使用),这是一个很好的方法,可以确保我们不会错过任何重要的论文。如果有重复的数据,那也没关系,因为我们最终将主要关注人类大小的数据块。然而,如果你知道比与谷歌学者抗争更好的方法,那么我也很想知道。我建议你尝试一个在你的研究领域广为人知的出版物数据库。例如,IEEE Explore/SPIRE/WebOfScience/ScienceDirect/Citeser等。我相信它们中的大多数都有API,但都是商业化的,而且收费很高,因此如果您的目的是开发一个低成本/免费的工具,那么这些工具可能没有帮助。我认为Google scholar仍然是可能的,只是由于缺乏结构,它需要更多的努力。尽管如此,macs应用程序“论文”还是设法从Google Scholar返回了不错的结果,所以这并非不可能:)第二个链接已经死了。