Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/293.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用于搜索专利数据库的Python模块,即USPTO或EPO_Python_Python 2.7_Search - Fatal编程技术网

用于搜索专利数据库的Python模块,即USPTO或EPO

用于搜索专利数据库的Python模块,即USPTO或EPO,python,python-2.7,search,Python,Python 2.7,Search,为了我的工作,我必须在生物医学研究和工业领域寻找潜在客户 我使用biopython模块编写了一些非常方便的程序,该模块有一个很好的用于搜索NCBI的界面。我还使用了“临床试验”模块来搜索clinicaltrials.gov 我现在想搜索专利数据库,比如EPO或USPTO,但我甚至找不到python模块的一点蛛丝马迹。但也许我遗漏了一些明显的东西 由于谷歌有一个专利搜索选项,我想知道是否有一个用于搜索谷歌的python模块可以只用于搜索专利?我不知道有没有现成的python模块,但你可以自己构建。

为了我的工作,我必须在生物医学研究和工业领域寻找潜在客户

我使用biopython模块编写了一些非常方便的程序,该模块有一个很好的用于搜索NCBI的界面。我还使用了“临床试验”模块来搜索clinicaltrials.gov

我现在想搜索专利数据库,比如EPO或USPTO,但我甚至找不到python模块的一点蛛丝马迹。但也许我遗漏了一些明显的东西


由于谷歌有一个专利搜索选项,我想知道是否有一个用于搜索谷歌的python模块可以只用于搜索专利?

我不知道有没有现成的python模块,但你可以自己构建。USPTO和EPO都有API,可在和中找到


我不知道那里的文档有多容易使用,但是您可以尝试制作一个简单的查询器来检索和解析结果。当然,您需要的数据越广泛,编写模块的工作量就越大。

您至少可以使用任何XML解析工具(如lxml python模块)解析USPTO

盖布·费罗(Gabe Fierro)在这方面写了一篇很好的论文,可在这里查阅:(无付费墙)

Gabe还参与了一些关于这方面的有益讨论

最后,如果你知道你在寻找什么,并且有足够的磁盘空间,你也可以获得本地存储的批量数据进行处理。USPTO批量下载

任何更具体的问题请让我知道!我曾经踏过这片土地:)

此外,谷歌专利搜索API也不受欢迎,但现在你可以使用URL标签通过主谷歌搜索API进行同样的搜索(我手头没有这些标签,但你可以通过谷歌专利搜索找到它们,谷歌将对此作出回应)

更新:现在在家里,你想使用谷歌定制搜索API进行专利搜索的标志是&tbm=pts——请注意,谷歌定制搜索引擎和获取相同的代码对专利搜索非常有益,因为JSON提供了一个带有专利特定字段的良好数据结构

示例代码:

import requests
import urllib
import time
import json

access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>

# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)

response = requests.get(url)

response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()
导入请求
导入URL库
导入时间
导入json
访问令牌=
cse_id=
#构建url
开始=1
search_text=“+(签名人:\“Altera\”\“所有者名称:Altera\”)网站:www.google.com/patents/”
#&tbm=pts设置您的专利搜索
url='1〕https://www.googleapis.com/customsearch/v1?key=“+access_-token+”&cx='+cse_-id+'&start='+str(start)+'&num=10&tbm=pts&q='+urllib.quote(搜索文本)
response=requests.get(url)
response.json()
f=open('Sample\u patent\u data'+str(int(time.time()))+'.txt',w')
f、 写入(json.dumps(response.json(),indent=4))
f、 关闭()

这将(在添加免费API访问信息后)获取Altera拥有的前十项专利(例如),并将生成的JSON保存到文本文件中。打开您最喜欢的web JSON编辑器,查看JSON文件。我特别建议查看['items'][]和子['pagemap']。仅通过解析此JSON,您就可以获得标题、缩略图、片段、标题、链接,甚至引用(如果相关)。

回答得很好,但您可以使用@Burhan-因为我的示例使用请求,所以我想您是指使用请求来构建查询字符串或执行文件保存操作吗?当然,这可能是几行代码,但要清楚地说明发生了什么事情并没有那么有用,这是stackoverflow答案的主要目标,对吗?我明白你的意思;但使用请求构建查询字符串将自动转义参数;并且,将文件与请求一起保存将确保大响应流式传输并正确保存。我发现这两个参数都非常有用。@Burhan-我知道转义参数,并选择显示它,但我不知道请求以一种特殊的方式传输大量响应。谢谢你今天教我一些东西!我要去阅读更多关于请求如何处理文件的内容:)参考文件可能被移动到TSDR网站是为了商标,而不是专利。它代表“商标状态和文档检索”。如果有人有兴趣使用TSDR进行商标访问(区别于专利访问),我有一个Python模块可以在。除了返回内容的字典外,大部分文档都已完成;但这些例子都是不言自明的。IP Street为搜索美国和欧洲数据库提供了一个RESTful API。与其他产品相比,它更先进、更健壮。以下是开发人员页面: