Sparql 从Freebase dump中提取电子产品子集并进行查询

Sparql 从Freebase dump中提取电子产品子集并进行查询,sparql,freebase,Sparql,Freebase,我已经从下载了Freebase转储文件 我知道转储文件的格式是,但我对文件之间的关系感到困惑。现在,我有两个问题: 如果我想提取Freebase的电子产品子集,其中包括一些主要属性,如/由生产,/产品类型等。例如:在子集中,iPhone的记录包含iPhone的设计公司、代数等。我尝试使用cygwin来提取它,如何编写zgrep脚本 如果我以*.gz格式获得了这个子集,那么如何在windows环境中使用SPARQL或其他有效的编码语言查询指定的主题?例如:查询iPhone关于设计公司的信息。我知道

我已经从下载了Freebase转储文件

我知道转储文件的格式是
,但我对文件之间的关系感到困惑。现在,我有两个问题:

  • 如果我想提取Freebase的电子产品子集,其中包括一些主要属性,如
    /由
    生产,
    /产品类型
    等。例如:在子集中,iPhone的记录包含iPhone的设计公司、代数等。我尝试使用cygwin来提取它,如何编写zgrep脚本

  • 如果我以*.gz格式获得了这个子集,那么如何在windows环境中使用SPARQL或其他有效的编码语言查询指定的主题?例如:查询iPhone关于设计公司的信息。我知道即使子集是一个大的RDF文件,我能实现它吗


  • 我真的需要有人告诉我是否可以,谢谢。

    既然Freebase网站仍然存在,尽管有关闭它的威胁,我要做的第一件事就是检查它是否可能有你想要的信息:

    如果您决定提取子集,您可以编写一个小程序,利用转储按主题ID排序的事实,并缓冲当前主题的谓词,直到您确定它是否符合您的条件,或者使用类似zgrep的方法进行两次传递—一次提取匹配的主题ID,另一次获取这些主题的所有谓词身份证


    Freebase作为
    /business/product\u line/category
    属性,名义上可以识别电子产品,但我认为它的填充不够好,不足以发挥作用。

    使用RDF,您应该决定将下载的日期存储在归档文件中的何处。我想你想要一些简单的东西。下载并安装。如果您想要一个HTTP接口(而不是命令行工具),请考虑./P> 要查询数据,您需要了解SPARQL。如果您熟悉SQL,那么学习SPARQL的时间应该不会超过几个小时。如果你对要达到的目标有特别的疑问,再问他们一次

    有了这些工具,您可以处理任何RDF文件。即使有几十亿个三倍