Pyspark 如何筛选语言的Wikidata转储？_Pyspark_Apache Spark Sql_Rdf_Wikidata

Pyspark 如何筛选语言的Wikidata转储？

pyspark rdf

Pyspark 如何筛选语言的Wikidata转储？,pyspark,apache-spark-sql,rdf,wikidata,Pyspark,Apache Spark Sql,Rdf,Wikidata,我已经下载了RDF格式的Wikidata truthy转储（.nt.bz2文件）。我想将转储的语言限制为英语，并将这个新的过滤转储生成为一个新的.nt文件我曾尝试使用并行grep来过滤带有“@en”文本的行，但这会消耗大量的处理时间是否有更快的方法生成过滤转储？类似于使用Spark的东西？对您来说可能有点晚了，但同时生成了一个工具来创建自定义转储：使用此工具，您可以在线定义语言筛选器，然后下载一个仅包含相关三元组的.nt文件。可能对您来说有点晚了，但同时生成了一个创建自定义转储的工具：使

我已经下载了RDF格式的Wikidata truthy转储（.nt.bz2文件）。我想将转储的语言限制为英语，并将这个新的过滤转储生成为一个新的.nt文件

我曾尝试使用并行grep来过滤带有“@en”文本的行，但这会消耗大量的处理时间

是否有更快的方法生成过滤转储？类似于使用Spark的东西？

对您来说可能有点晚了，但同时生成了一个工具来创建自定义转储：

使用此工具，您可以在线定义语言筛选器，然后下载一个仅包含相关三元组的.nt文件。

可能对您来说有点晚了，但同时生成了一个创建自定义转储的工具：

使用此工具，您可以在线定义语言筛选器，然后下载仅包含相关三元组的.nt文件。

为什么Spark要比使用并行流高效Unix工具更快？必须首先解析文本并将其加载到JVM中。你需要一个集群或者至少是一台运行多个工人的强大机器。在使用

grep

之前是否提取转储？您知道还有像

bzgrep

这样的工具吗？长意味着什么？为什么Spark要比使用并行流高效Unix工具更快？必须首先解析文本并将其加载到JVM中。你需要一个集群或者至少是一台运行多个工人的强大机器。在使用

grep

之前是否提取转储？您知道还有像

bzgrep

这样的工具吗？什么是长？