Rdf 从Jena中的文件中删除无效的N-Quads
我有一个包含N-Quads的文件(使用schema.org词汇表),我想使用ApacheJena的命令行工具将其加载到TDB RDF存储中。我正在使用的命令是:Rdf 从Jena中的文件中删除无效的N-Quads,rdf,jena,n-quads,Rdf,Jena,N Quads,我有一个包含N-Quads的文件(使用schema.org词汇表),我想使用ApacheJena的命令行工具将其加载到TDB RDF存储中。我正在使用的命令是: tdbloader--loc 但在加载过程中,我遇到了一个错误: [行:769293,列:154]非法的unicode转义序列值:\”(0x22) 我还从Jena命令行工具运行了验证工具: riot--validate 事实上,至少有30个类似的错误/警告: 坏IRI 路径包含一个段/。/不在相对引用的开头,或者它包含一个/。/这些
tdbloader--loc
但在加载过程中,我遇到了一个错误:
[行:769293,列:154]非法的unicode转义序列值:\”(0x22)
我还从Jena命令行工具运行了验证工具:
riot--validate
事实上,至少有30个类似的错误/警告:
坏IRI
路径包含一个段/。/不在相对引用的开头,或者它包含一个/。/这些应该被删除
是否有办法通过使用命令行工具(Jena或如果您了解其他工具)忽略或删除无效的N-quad?
否则,唯一的选择是使用脚本删除无效字符。但除了文件太大(60 GB)之外,我想这很容易出错。最好检查是否加载了错误或不合适的数据。N-Quads是基于行的。跳过三元组就是删除该行。在Linux上使用操作系统的文本编辑工具,”sed、perl等将能够发现和跳过错误行或修复错误行。谢谢,@AndyS!我将删除错误行