如何在Java中访问scholar.google.com?

如何在Java中访问scholar.google.com?,java,web-scraping,Java,Web Scraping,我想写一个Java函数grabTopResults(String f),这样grabTopResults(“自动机理论”)就可以在scholar.google.com上为“自动机理论”返回前100篇被引用论文的列表 有人对什么样的图书馆能让我的生活变得轻松有什么建议吗 谢谢 我使用。Google Scholar没有API()。当然,这是谷歌不允许的(阅读使用条款。禁止自动请求)。因为我确信谷歌能够负担得起带宽,我将忽略这个问题,即这是否不道德/非法/被谷歌的T&C禁止 您需要做的第一件事是弄清楚

我想写一个Java函数
grabTopResults(String f)
,这样
grabTopResults(“自动机理论”)
就可以在scholar.google.com上为“自动机理论”返回前100篇被引用论文的列表

有人对什么样的图书馆能让我的生活变得轻松有什么建议吗


谢谢

我使用。Google Scholar没有API()。当然,这是谷歌不允许的(阅读使用条款。禁止自动请求)。

因为我确信谷歌能够负担得起带宽,我将忽略这个问题,即这是否不道德/非法/被谷歌的T&C禁止

您需要做的第一件事是弄清楚为了获得包含所需数据的页面,您需要发出什么HTTP请求。一旦您了解了这一点,就可以使用从Java代码发出相同的请求。前面的链接显示了解释如何执行此操作的示例代码

下载相关页面的内容后,需要使用HTML解析器提取感兴趣的数据。peperg提出的建议是一个不错的选择


如果谷歌警察来敲门,你从来没有听说过我,好吗?

下面是一些示例代码,使用开源产品在第一页上获取标题。它是一个独立的产品,但如果您真的需要它,我可以帮助您将它集成到Java代码中(它是用Java编写的)

这将产生如下输出(我的IP是德国,因此是德国响应)。很明显,你可以随心所欲地格式化它,或者将它写入一个文件;这只是一个粗略的测试

00000000-00 GOTOURL http://scholar.google.com/
00000001-00 SUBMITFORM default
00000002-00 NOTICE [ZITATION] Stochastic complexity in statistical inquiry theory
00000003-00 NOTICE AUTOMATED THEORY FORMATION IN MATHEMATICS1
00000004-00 NOTICE Constraint generation via automated theory formation
00000005-00 NOTICE [BUCH] Automated theorem proving: after 25 years
00000006-00 NOTICE [BUCH] Introduction to the Theory of Computation
00000007-00 NOTICE [ZITATION] Computer-controlled systems: theory and design
00000008-00 NOTICE [BUCH] … , randomness & incompleteness: papers on algorithmic information theory
00000009-00 NOTICE [BUCH] Automatic control systems
00000010-00 NOTICE [BUCH] VLSI physical design automation: theory and practice
00000011-00 NOTICE Singular Control Systems.

我认为谷歌禁止这样的事情。检查他们的使用条款只要搜索是由个人而不是聚合脚本发起的,我看不出它违反了谷歌的TOS。它说,你必须使用谷歌提供的界面,你是(他们的http响应),你不能自动化它,如果用户启动它,它基本上只是另一种形式的网络浏览器。
00000000-00 GOTOURL http://scholar.google.com/
00000001-00 SUBMITFORM default
00000002-00 NOTICE [ZITATION] Stochastic complexity in statistical inquiry theory
00000003-00 NOTICE AUTOMATED THEORY FORMATION IN MATHEMATICS1
00000004-00 NOTICE Constraint generation via automated theory formation
00000005-00 NOTICE [BUCH] Automated theorem proving: after 25 years
00000006-00 NOTICE [BUCH] Introduction to the Theory of Computation
00000007-00 NOTICE [ZITATION] Computer-controlled systems: theory and design
00000008-00 NOTICE [BUCH] … , randomness & incompleteness: papers on algorithmic information theory
00000009-00 NOTICE [BUCH] Automatic control systems
00000010-00 NOTICE [BUCH] VLSI physical design automation: theory and practice
00000011-00 NOTICE Singular Control Systems.