solr纯文本标记化_Solr_Tokenize

solr纯文本标记化

solr

solr纯文本标记化,solr,tokenize,Solr,Tokenize,我有一堆文本文件，除了颜色代码什么都没有。频率是给定颜色在文件中出现的次数 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 00000b 00000b 00000b 00000c 00000c 00000c 00000c 00000c 00000e 00000e 我已经看到了这一点，我正在努力让solr部分正确。我已经用空白标记器定义了一个文件类型，并添加了该类型的字段。问题是我不知道如何按

我有一堆文本文件，除了颜色代码什么都没有。频率是给定颜色在文件中出现的次数

000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 00000b 00000b 00000b 00000c 00000c 00000c 00000c 00000c 00000e 00000e

我已经看到了这一点，我正在努力让solr部分正确。我已经用空白标记器定义了一个文件类型，并添加了该类型的字段。问题是我不知道如何按原样导入文件。我如何告诉solr（solr 5）使用该标记器提取内容？我想我可以把它做成一个结构化文件（csv），然后用标准的方式——比如solr/update--data@csv文件。但对于这样一个简单的文件来说，这似乎有些过分了

您可以使用更新请求来完成这项工作：

但这不是针对基于tika的更新还是针对标准类型的csv、json吗？这更简单-所有内容只是一个字段类型。因此，您只需要一个带有一个字段的CSV。您的文档代表一个图像。不过，您可能需要考虑为IDs做些什么。使用UpdateRequestProcessor链自动生成它们，或调整架构使其不包含它们。当然，拥有它们更好。我期望太多，或者对索尔的理解不够好。我确实需要把我的数据转换成结构化的东西。这实际上是一个非常小的工作——最终得到了json和两个字段。塔克斯