solr纯文本标记化

solr纯文本标记化,solr,tokenize,Solr,Tokenize,我有一堆文本文件,除了颜色代码什么都没有。频率是给定颜色在文件中出现的次数 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 00000b 00000b 00000b 00000c 00000c 00000c 00000c 00000c 00000e 00000e 我已经看到了这一点,我正在努力让solr部分正确。我已经用空白标记器定义了一个文件类型,并添加了该类型的字段。问题是我不知道如何按

我有一堆文本文件,除了颜色代码什么都没有。频率是给定颜色在文件中出现的次数

000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 00000b 00000b 00000b 00000c 00000c 00000c 00000c 00000c 00000e 00000e


我已经看到了这一点,我正在努力让solr部分正确。我已经用空白标记器定义了一个文件类型,并添加了该类型的字段。问题是我不知道如何按原样导入文件。我如何告诉solr(solr 5)使用该标记器提取内容?我想我可以把它做成一个结构化文件(csv),然后用标准的方式——比如solr/update--data@csv文件。但对于这样一个简单的文件来说,这似乎有些过分了

您可以使用更新请求来完成这项工作:

但这不是针对基于tika的更新还是针对标准类型的csv、json吗?这更简单-所有内容只是一个字段类型。因此,您只需要一个带有一个字段的CSV。您的文档代表一个图像。不过,您可能需要考虑为IDs做些什么。使用UpdateRequestProcessor链自动生成它们,或调整架构使其不包含它们。当然,拥有它们更好。我期望太多,或者对索尔的理解不够好。我确实需要把我的数据转换成结构化的东西。这实际上是一个非常小的工作——最终得到了json和两个字段。塔克斯