Rdf Freebase:转储中缺少实例

Rdf Freebase:转储中缺少实例,rdf,freebase,Rdf,Freebase,我想把所有的公司都从公司里抽出来。但是,转储中似乎缺少多个实例 例如,大众汽车(/m/07ywl)似乎不包括在内。我使用以下正则表达式搜索MID,但找不到任何结果: zgrep 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz > res.rdf MID应该是有效的,因为它在相应的页面上有说明,并且是大众汽车使用知识图API搜索它时的最高结果: https://kgsearch.googleapis.com/v1/entities:

我想把所有的公司都从公司里抽出来。但是,转储中似乎缺少多个实例

例如,大众汽车(
/m/07ywl
)似乎不包括在内。我使用以下正则表达式搜索MID,但找不到任何结果:

zgrep 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz > res.rdf
MID应该是有效的,因为它在相应的页面上有说明,并且是大众汽车使用知识图API搜索它时的最高结果:

https://kgsearch.googleapis.com/v1/entities:search?query=volkswagen&key=<API-KEY>&limit=5&indent=True
https://kgsearch.googleapis.com/v1/entities:search?query=volkswagen&key=&limit=5&indent=True

该实体存在于
freebase-rdf-2015-04-19-00-00.gz
中,因此,如果几个月后(2015-08-09)的最终转储中不存在该实体,我会非常惊讶,因为除了几个Google管理员之外,数据库对所有人都是写锁定的


我的第一个猜测是您的下载被截断或损坏。下载后你检查了长度和MD5校验和了吗?

我在Ubuntu 18.04上也遇到了同样的问题,因为zgrep将解压后的数据解释为二进制,搜索时没有正确解码文本。使用
-a
标志修复了我的问题:


zgrep-a'rdf\.freebase\.com/ns/m\.07ywl>'freebase rdf.gz

很抱歉后续工作太晚。你能告诉我你是如何搜索实体的吗?我在
freebase-rdf-2015-04-19-00-00.gz
转储上尝试了
zgrep'07ywl'
,但没有检索到任何结果。
time zgrep'07ywl'freebase-rdf-2015-04-19-00-00.gz>vw-07ywl.txt real 86m51.942s用户84m33.558s sys 0m39.977s$wc-l vw-0*1344 vw-07ywl.txt
您检查了长度和长度吗下载后的校验和?他们不发布校验和。不过,归档文件的大小看起来不错,我使用
gunzip-t
测试了压缩文件是否损坏。不知道还有什么方法可以检查。尽管格式很糟糕,要点是我的文件副本有1334个三元组与该模式匹配。这是在OSX上实现的,但如果
zgrep
在其他平台上表现不同,我会感到惊讶。