CiteSerx搜索api_Api_Metadata_Web Scraping_Citations

CiteSerx搜索api

api web-scraping

CiteSerx搜索api,api,metadata,web-scraping,citations,Api,Metadata,Web Scraping,Citations,是否有一种通过编程方式访问的方法（例如，按作者和/或标题搜索？）令人惊讶的是，我找不到任何相关内容；当然，其他人也在尝试获取学术文章元数据，而不诉诸于刮取编辑：请注意Citeserx OAI PMH，但这似乎是一个面向数字图书馆的API，用于相互更新（“内容传播”），并不专门支持搜索。此外，该页面上的Citeser信息非常稀少，甚至说“目前，OAI存在困难” 关于CiteSeerxAPI有很多问题（虽然不是专门搜索）；这两个答案并不能解决问题（一个是关于Mendeley，另一个是说OAI-PM

是否有一种通过编程方式访问的方法（例如，按作者和/或标题搜索？）令人惊讶的是，我找不到任何相关内容；当然，其他人也在尝试获取学术文章元数据，而不诉诸于刮取

编辑：请注意Citeserx OAI PMH，但这似乎是一个面向数字图书馆的API，用于相互更新（“内容传播”），并不专门支持搜索。此外，该页面上的Citeser信息非常稀少，甚至说“目前，OAI存在困难”

关于CiteSeerxAPI有很多问题（虽然不是专门搜索）；这两个答案并不能解决问题（一个是关于Mendeley，另一个是说OAI-PMH实现可以免费提供对最低规范的扩展）

或者，有谁能推荐一种通过编程从作者/标题处获取引用的好方法吗？

正如一位评论者所建议的，我首先尝试了jabref：

jabref-n-f“城市教育者：标题：（从中吸取的教训）作者：（布鲁尔）”

然而，jabref似乎没有意识到查询字符串需要包含冒号，因此抛出了一个错误

对于搜索结果，我最终使用Python的BeautifulSoup删除了CiteSerx结果：

url = "http://citeseerx.ist.psu.edu/search?q="
q = "title%3A%28{1}%29+author%3%28{0}%29&submit=Search&sort=cite&t=doc"
url += q.format (author_last, title.replace (" ", "+"))
soup = BeautifulSoup (urllib2.urlopen (url).read ())
result = soup.html.body ("div", id = "result_list") [0].div
title = result.h3.a.string.strip ()
authors = result ("span", "authors") [0].string
authors = authors [len ("by "):].strip ()
date = result ("span", "pubyear") [0].string.strip (", ")

可以从结果中获取文档ID（摘要链接URL中错误命名的“doi=…”部分），然后将其传递给CiteSerx OAI引擎以获取都柏林核心XML（例如）；然而，XML最终包含多个dc:date元素，这使得它不如scrape输出有用

太糟糕了，CiteSerx让人们不顾所有开放档案/开放访问的花言巧语而求助于抓取。

JabRef拥有CiteSerx支持。看看他们的GIT，看看他们是如何做到的：JabRef可能是你真正问题的答案吗，即参考资料管理？我建议你删除他们的网页，编写自己的XQuery引擎，以便能够可靠地做到这一点。感谢JabRef，@marek cruz。是的，我看到他们也在刮（citeserxfetcher.java）。我很惊讶CiteSeerX没有API（而且他们没有清楚地说明他们网站上的情况，不管是哪种方式）。我想我自己的XQuery表达式@BeniBela:）我会尝试看看是否可以在我的脚本中重用JabRef（它确实有批处理模式）。@dan3不客气。作为记录，以下是jabref实现，以防其他人需要它：