提取Freebase的子集数据以加快开发迭代

提取Freebase的子集数据以加快开发迭代,freebase,Freebase,我已经下载了250G转储的freebase数据。我不想在大数据上重复我的开发。我想提取数据的一小部分(可能是一个小域或大约10个人物及其信息)。这个小子集将使我的迭代更快、更容易 划分freebase数据的最佳方法是什么? Google/Freebase提供了任何子集下载吗?这是我们从许多使用数据转储的人那里得到的反馈。我们正在研究如何最好地创建这样的子集。一种方法是获取单个领域(如胶片)的所有数据 下面是如何从/film域中获得每个RDF三元组: zgrep '\s<http://rdf

我已经下载了250G转储的freebase数据。我不想在大数据上重复我的开发。我想提取数据的一小部分(可能是一个小域或大约10个人物及其信息)。这个小子集将使我的迭代更快、更容易

划分freebase数据的最佳方法是什么?
Google/Freebase提供了任何子集下载吗?

这是我们从许多使用数据转储的人那里得到的反馈。我们正在研究如何最好地创建这样的子集。一种方法是获取单个领域(如胶片)的所有数据

下面是如何从/film域中获得每个RDF三元组:

zgrep '\s<http://rdf\.freebase\.com/ns/film.' freebase-rdf-{date}.gz | gzip > freebase-films.gz

zgrep'\s我想做一件类似的事情,我想出了以下命令行

gunzip -c freebase-rdf-{date}.gz | awk 'BEGIN { prev_1 = ""} { if (prev_1 != $1) { print '\n' } print $0; prev_1 = $1};' | awk 'BEGIN { RS=""} $0 ~ /type\.object\.type.*\/film\.film>/' > freebase-films.txt
它会给你所有的三胞胎的所有主题,有类型的电影。(假设所有主题都是按顺序排列的)


在这之后,您可以简单地对您需要的谓词进行grep。

对于accepted post,只有一条注释,variant for topics不适用于我,因为如果我们想要使用正则表达式,我们需要设置-E参数

zgrep -E '\s<http://rdf\.freebase\.com/ns/(type\.object|common\.topic)' freebase-rdf-{date}.gz | gzip > freebase-topics.gz

zgrep-E'\s尽管您几乎肯定希望别名为/common/topic,名称为/type/object,但您可能还需要更多。如果你对电影领域感兴趣,你可能还需要演员配偶、出生日期、国籍等,因此你需要包含类型/人/人的一些属性。基本上,任何包含在目标类型中的类型都可能引起潜在兴趣。zgrep$'\tns/film。'freebase-rdf-2013-12-01-00-00.gz产生零行。我是不是错过了什么?哎呀,我这边有个错误。我已经更新了示例。请再试一次。如果我们可以按主题下载更小的freebase数据,我将非常高兴。@Shawnsister先生,将这些类别的关键字提取到excel工作表中最简单的方法是什么?
zgrep -E '\s<http://rdf\.freebase\.com/ns/(type\.object|common\.topic)' freebase-rdf-{date}.gz | gzip > freebase-topics.gz