Pyspark 如何筛选语言的Wikidata转储?

Pyspark 如何筛选语言的Wikidata转储?,pyspark,apache-spark-sql,rdf,wikidata,Pyspark,Apache Spark Sql,Rdf,Wikidata,我已经下载了RDF格式的Wikidata truthy转储(.nt.bz2文件)。我想将转储的语言限制为英语,并将这个新的过滤转储生成为一个新的.nt文件 我曾尝试使用并行grep来过滤带有“@en”文本的行,但这会消耗大量的处理时间 是否有更快的方法生成过滤转储?类似于使用Spark的东西?对您来说可能有点晚了,但同时生成了一个工具来创建自定义转储: 使用此工具,您可以在线定义语言筛选器,然后下载一个仅包含相关三元组的.nt文件。可能对您来说有点晚了,但同时生成了一个创建自定义转储的工具: 使

我已经下载了RDF格式的Wikidata truthy转储(.nt.bz2文件)。我想将转储的语言限制为英语,并将这个新的过滤转储生成为一个新的.nt文件

我曾尝试使用并行grep来过滤带有“@en”文本的行,但这会消耗大量的处理时间


是否有更快的方法生成过滤转储?类似于使用Spark的东西?

对您来说可能有点晚了,但同时生成了一个工具来创建自定义转储:


使用此工具,您可以在线定义语言筛选器,然后下载一个仅包含相关三元组的.nt文件。

可能对您来说有点晚了,但同时生成了一个创建自定义转储的工具:


使用此工具,您可以在线定义语言筛选器,然后下载仅包含相关三元组的.nt文件。

为什么Spark要比使用并行流高效Unix工具更快?必须首先解析文本并将其加载到JVM中。你需要一个集群或者至少是一台运行多个工人的强大机器。在使用
grep
之前是否提取转储?您知道还有像
bzgrep
这样的工具吗?长意味着什么?为什么Spark要比使用并行流高效Unix工具更快?必须首先解析文本并将其加载到JVM中。你需要一个集群或者至少是一台运行多个工人的强大机器。在使用
grep
之前是否提取转储?您知道还有像
bzgrep
这样的工具吗?什么是长?