用于搜索专利数据库的Python模块，即USPTO或EPO_Python_Python 2.7_Search

用于搜索专利数据库的Python模块，即USPTO或EPO

python python-2.7 search

用于搜索专利数据库的Python模块，即USPTO或EPO,python,python-2.7,search,Python,Python 2.7,Search,为了我的工作，我必须在生物医学研究和工业领域寻找潜在客户我使用biopython模块编写了一些非常方便的程序，该模块有一个很好的用于搜索NCBI的界面。我还使用了“临床试验”模块来搜索clinicaltrials.gov 我现在想搜索专利数据库，比如EPO或USPTO，但我甚至找不到python模块的一点蛛丝马迹。但也许我遗漏了一些明显的东西由于谷歌有一个专利搜索选项，我想知道是否有一个用于搜索谷歌的python模块可以只用于搜索专利？我不知道有没有现成的python模块，但你可以自己构建。

为了我的工作，我必须在生物医学研究和工业领域寻找潜在客户

我使用biopython模块编写了一些非常方便的程序，该模块有一个很好的用于搜索NCBI的界面。我还使用了“临床试验”模块来搜索clinicaltrials.gov

我现在想搜索专利数据库，比如EPO或USPTO，但我甚至找不到python模块的一点蛛丝马迹。但也许我遗漏了一些明显的东西

由于谷歌有一个专利搜索选项，我想知道是否有一个用于搜索谷歌的python模块可以只用于搜索专利？

我不知道有没有现成的python模块，但你可以自己构建。USPTO和EPO都有API，可在和中找到

我不知道那里的文档有多容易使用，但是您可以尝试制作一个简单的查询器来检索和解析结果。当然，您需要的数据越广泛，编写模块的工作量就越大。

您至少可以使用任何XML解析工具（如lxml python模块）解析USPTO

盖布·费罗（Gabe Fierro）在这方面写了一篇很好的论文，可在这里查阅：（无付费墙）

Gabe还参与了一些关于这方面的有益讨论

最后，如果你知道你在寻找什么，并且有足够的磁盘空间，你也可以获得本地存储的批量数据进行处理。USPTO批量下载

任何更具体的问题请让我知道！我曾经踏过这片土地：）

此外，谷歌专利搜索API也不受欢迎，但现在你可以使用URL标签通过主谷歌搜索API进行同样的搜索（我手头没有这些标签，但你可以通过谷歌专利搜索找到它们，谷歌将对此作出回应）

更新：现在在家里，你想使用谷歌定制搜索API进行专利搜索的标志是&tbm=pts——请注意，谷歌定制搜索引擎和获取相同的代码对专利搜索非常有益，因为JSON提供了一个带有专利特定字段的良好数据结构

示例代码：

import requests
import urllib
import time
import json

access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>

# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)

response = requests.get(url)

response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()

导入请求
导入URL库
导入时间
导入json
访问令牌=
cse_id=
#构建url
开始=1
search_text=“+（签名人：\“Altera\”\“所有者名称：Altera\”）网站：www.google.com/patents/”
#&tbm=pts设置您的专利搜索
url='1〕https://www.googleapis.com/customsearch/v1?key=“+access_-token+”&cx='+cse_-id+'&start='+str（start）+'&num=10&tbm=pts&q='+urllib.quote（搜索文本）
response=requests.get（url）
response.json（）
f=open（'Sample\u patent\u data'+str（int（time.time（）））+'.txt'，w'）
f、 写入（json.dumps（response.json（），indent=4））
f、 关闭（）

这将（在添加免费API访问信息后）获取Altera拥有的前十项专利（例如），并将生成的JSON保存到文本文件中。打开您最喜欢的web JSON编辑器，查看JSON文件。我特别建议查看['items'][]和子['pagemap']。仅通过解析此JSON，您就可以获得标题、缩略图、片段、标题、链接，甚至引用（如果相关）。

回答得很好，但您可以使用@Burhan-因为我的示例使用请求，所以我想您是指使用请求来构建查询字符串或执行文件保存操作吗？当然，这可能是几行代码，但要清楚地说明发生了什么事情并没有那么有用，这是stackoverflow答案的主要目标，对吗？我明白你的意思；但使用请求构建查询字符串将自动转义参数；并且，将文件与请求一起保存将确保大响应流式传输并正确保存。我发现这两个参数都非常有用。@Burhan-我知道转义参数，并选择显示它，但我不知道请求以一种特殊的方式传输大量响应。谢谢你今天教我一些东西！我要去阅读更多关于请求如何处理文件的内容：）参考文件可能被移动到TSDR网站是为了商标，而不是专利。它代表“商标状态和文档检索”。如果有人有兴趣使用TSDR进行商标访问（区别于专利访问），我有一个Python模块可以在。除了返回内容的字典外，大部分文档都已完成；但这些例子都是不言自明的。IP Street为搜索美国和欧洲数据库提供了一个RESTful API。与其他产品相比，它更先进、更健壮。以下是开发人员页面：