CiteSerx搜索api

CiteSerx搜索api,api,metadata,web-scraping,citations,Api,Metadata,Web Scraping,Citations,是否有一种通过编程方式访问的方法(例如,按作者和/或标题搜索?)令人惊讶的是,我找不到任何相关内容;当然,其他人也在尝试获取学术文章元数据,而不诉诸于刮取 编辑:请注意Citeserx OAI PMH,但这似乎是一个面向数字图书馆的API,用于相互更新(“内容传播”),并不专门支持搜索。此外,该页面上的Citeser信息非常稀少,甚至说“目前,OAI存在困难” 关于CiteSeerxAPI有很多问题(虽然不是专门搜索);这两个答案并不能解决问题(一个是关于Mendeley,另一个是说OAI-PM

是否有一种通过编程方式访问的方法(例如,按作者和/或标题搜索?)令人惊讶的是,我找不到任何相关内容;当然,其他人也在尝试获取学术文章元数据,而不诉诸于刮取

编辑:请注意Citeserx OAI PMH,但这似乎是一个面向数字图书馆的API,用于相互更新(“内容传播”),并不专门支持搜索。此外,该页面上的Citeser信息非常稀少,甚至说“目前,OAI存在困难”

关于CiteSeerxAPI有很多问题(虽然不是专门搜索);这两个答案并不能解决问题(一个是关于Mendeley,另一个是说OAI-PMH实现可以免费提供对最低规范的扩展)


或者,有谁能推荐一种通过编程从作者/标题处获取引用的好方法吗?

正如一位评论者所建议的,我首先尝试了jabref:

jabref-n-f“城市教育者:标题:(从中吸取的教训)作者:(布鲁尔)”

然而,jabref似乎没有意识到查询字符串需要包含冒号,因此抛出了一个错误

对于搜索结果,我最终使用Python的BeautifulSoup删除了CiteSerx结果:

url = "http://citeseerx.ist.psu.edu/search?q="
q = "title%3A%28{1}%29+author%3%28{0}%29&submit=Search&sort=cite&t=doc"
url += q.format (author_last, title.replace (" ", "+"))
soup = BeautifulSoup (urllib2.urlopen (url).read ())
result = soup.html.body ("div", id = "result_list") [0].div
title = result.h3.a.string.strip ()
authors = result ("span", "authors") [0].string
authors = authors [len ("by "):].strip ()
date = result ("span", "pubyear") [0].string.strip (", ")
可以从结果中获取文档ID(摘要链接URL中错误命名的“doi=…”部分),然后将其传递给CiteSerx OAI引擎以获取都柏林核心XML(例如);然而,XML最终包含多个dc:date元素,这使得它不如scrape输出有用


太糟糕了,CiteSerx让人们不顾所有开放档案/开放访问的花言巧语而求助于抓取。

JabRef拥有CiteSerx支持。看看他们的GIT,看看他们是如何做到的:JabRef可能是你真正问题的答案吗,即参考资料管理?我建议你删除他们的网页,编写自己的XQuery引擎,以便能够可靠地做到这一点。感谢JabRef,@marek cruz。是的,我看到他们也在刮(citeserxfetcher.java)。我很惊讶CiteSeerX没有API(而且他们没有清楚地说明他们网站上的情况,不管是哪种方式)。我想我自己的XQuery表达式@BeniBela:)我会尝试看看是否可以在我的脚本中重用JabRef(它确实有批处理模式)。@dan3不客气。作为记录,以下是jabref实现,以防其他人需要它: