提取Freebase的子集数据以加快开发迭代_Freebase

提取Freebase的子集数据以加快开发迭代

提取Freebase的子集数据以加快开发迭代,freebase,Freebase,我已经下载了250G转储的freebase数据。我不想在大数据上重复我的开发。我想提取数据的一小部分（可能是一个小域或大约10个人物及其信息）。这个小子集将使我的迭代更快、更容易划分freebase数据的最佳方法是什么？ Google/Freebase提供了任何子集下载吗？这是我们从许多使用数据转储的人那里得到的反馈。我们正在研究如何最好地创建这样的子集。一种方法是获取单个领域（如胶片）的所有数据下面是如何从/film域中获得每个RDF三元组： zgrep '\s<http://rdf

我已经下载了250G转储的freebase数据。我不想在大数据上重复我的开发。我想提取数据的一小部分（可能是一个小域或大约10个人物及其信息）。这个小子集将使我的迭代更快、更容易

划分freebase数据的最佳方法是什么？

Google/Freebase提供了任何子集下载吗？

这是我们从许多使用数据转储的人那里得到的反馈。我们正在研究如何最好地创建这样的子集。一种方法是获取单个领域（如胶片）的所有数据

下面是如何从/film域中获得每个RDF三元组：

zgrep '\s<http://rdf\.freebase\.com/ns/film.' freebase-rdf-{date}.gz | gzip > freebase-films.gz

zgrep'\s我想做一件类似的事情，我想出了以下命令行
gunzip -c freebase-rdf-{date}.gz | awk 'BEGIN { prev_1 = ""} { if (prev_1 != $1) { print '\n' } print $0; prev_1 = $1};' | awk 'BEGIN { RS=""} $0 ~ /type\.object\.type.*\/film\.film>/' > freebase-films.txt

它会给你所有的三胞胎的所有主题，有类型的电影。（假设所有主题都是按顺序排列的）
在这之后，您可以简单地对您需要的谓词进行grep。
对于accepted post，只有一条注释，variant for topics不适用于我，因为如果我们想要使用正则表达式，我们需要设置-E参数
zgrep -E '\s<http://rdf\.freebase\.com/ns/(type\.object|common\.topic)' freebase-rdf-{date}.gz | gzip > freebase-topics.gz

zgrep-E'\s尽管您几乎肯定希望别名为/common/topic，名称为/type/object，但您可能还需要更多。如果你对电影领域感兴趣，你可能还需要演员配偶、出生日期、国籍等，因此你需要包含类型/人/人的一些属性。基本上，任何包含在目标类型中的类型都可能引起潜在兴趣。zgrep$'\tns/film。'freebase-rdf-2013-12-01-00-00.gz产生零行。我是不是错过了什么？哎呀，我这边有个错误。我已经更新了示例。请再试一次。如果我们可以按主题下载更小的freebase数据，我将非常高兴。@Shawnsister先生，将这些类别的关键字提取到excel工作表中最简单的方法是什么？
zgrep -E '\s<http://rdf\.freebase\.com/ns/(type\.object|common\.topic)' freebase-rdf-{date}.gz | gzip > freebase-topics.gz