用于搜索专利数据库的Python模块,即USPTO或EPO
为了我的工作,我必须在生物医学研究和工业领域寻找潜在客户 我使用biopython模块编写了一些非常方便的程序,该模块有一个很好的用于搜索NCBI的界面。我还使用了“临床试验”模块来搜索clinicaltrials.gov 我现在想搜索专利数据库,比如EPO或USPTO,但我甚至找不到python模块的一点蛛丝马迹。但也许我遗漏了一些明显的东西用于搜索专利数据库的Python模块,即USPTO或EPO,python,python-2.7,search,Python,Python 2.7,Search,为了我的工作,我必须在生物医学研究和工业领域寻找潜在客户 我使用biopython模块编写了一些非常方便的程序,该模块有一个很好的用于搜索NCBI的界面。我还使用了“临床试验”模块来搜索clinicaltrials.gov 我现在想搜索专利数据库,比如EPO或USPTO,但我甚至找不到python模块的一点蛛丝马迹。但也许我遗漏了一些明显的东西 由于谷歌有一个专利搜索选项,我想知道是否有一个用于搜索谷歌的python模块可以只用于搜索专利?我不知道有没有现成的python模块,但你可以自己构建。
由于谷歌有一个专利搜索选项,我想知道是否有一个用于搜索谷歌的python模块可以只用于搜索专利?我不知道有没有现成的python模块,但你可以自己构建。USPTO和EPO都有API,可在和中找到
我不知道那里的文档有多容易使用,但是您可以尝试制作一个简单的查询器来检索和解析结果。当然,您需要的数据越广泛,编写模块的工作量就越大。您至少可以使用任何XML解析工具(如lxml python模块)解析USPTO 盖布·费罗(Gabe Fierro)在这方面写了一篇很好的论文,可在这里查阅:(无付费墙) Gabe还参与了一些关于这方面的有益讨论 最后,如果你知道你在寻找什么,并且有足够的磁盘空间,你也可以获得本地存储的批量数据进行处理。USPTO批量下载 任何更具体的问题请让我知道!我曾经踏过这片土地:) 此外,谷歌专利搜索API也不受欢迎,但现在你可以使用URL标签通过主谷歌搜索API进行同样的搜索(我手头没有这些标签,但你可以通过谷歌专利搜索找到它们,谷歌将对此作出回应) 更新:现在在家里,你想使用谷歌定制搜索API进行专利搜索的标志是&tbm=pts——请注意,谷歌定制搜索引擎和获取相同的代码对专利搜索非常有益,因为JSON提供了一个带有专利特定字段的良好数据结构 示例代码:
import requests
import urllib
import time
import json
access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>
# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)
response = requests.get(url)
response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()
导入请求
导入URL库
导入时间
导入json
访问令牌=
cse_id=
#构建url
开始=1
search_text=“+(签名人:\“Altera\”\“所有者名称:Altera\”)网站:www.google.com/patents/”
#&tbm=pts设置您的专利搜索
url='1〕https://www.googleapis.com/customsearch/v1?key=“+access_-token+”&cx='+cse_-id+'&start='+str(start)+'&num=10&tbm=pts&q='+urllib.quote(搜索文本)
response=requests.get(url)
response.json()
f=open('Sample\u patent\u data'+str(int(time.time()))+'.txt',w')
f、 写入(json.dumps(response.json(),indent=4))
f、 关闭()
这将(在添加免费API访问信息后)获取Altera拥有的前十项专利(例如),并将生成的JSON保存到文本文件中。打开您最喜欢的web JSON编辑器,查看JSON文件。我特别建议查看['items'][]和子['pagemap']。仅通过解析此JSON,您就可以获得标题、缩略图、片段、标题、链接,甚至引用(如果相关)。回答得很好,但您可以使用@Burhan-因为我的示例使用请求,所以我想您是指使用请求来构建查询字符串或执行文件保存操作吗?当然,这可能是几行代码,但要清楚地说明发生了什么事情并没有那么有用,这是stackoverflow答案的主要目标,对吗?我明白你的意思;但使用请求构建查询字符串将自动转义参数;并且,将文件与请求一起保存将确保大响应流式传输并正确保存。我发现这两个参数都非常有用。@Burhan-我知道转义参数,并选择显示它,但我不知道请求以一种特殊的方式传输大量响应。谢谢你今天教我一些东西!我要去阅读更多关于请求如何处理文件的内容:)参考文件可能被移动到TSDR网站是为了商标,而不是专利。它代表“商标状态和文档检索”。如果有人有兴趣使用TSDR进行商标访问(区别于专利访问),我有一个Python模块可以在。除了返回内容的字典外,大部分文档都已完成;但这些例子都是不言自明的。IP Street为搜索美国和欧洲数据库提供了一个RESTful API。与其他产品相比,它更先进、更健壮。以下是开发人员页面: