Solr/2集成
SOlr/2集成 我创建的每个XML都有多个文本文件,用于在Solr上索引文档,如下所示Solr/2集成,solr,machine-learning,nlp,carrot2,Solr,Machine Learning,Nlp,Carrot2,SOlr/2集成 我创建的每个XML都有多个文本文件,用于在Solr上索引文档,如下所示 <add> <doc> <person>data </person> <organization>data here </organization> <content>Some spanish text here</content > </doc> <add>
<add>
<doc>
<person>data </person>
<organization>data here </organization>
<content>Some spanish text here</content >
</doc>
<add>
我的问题是由于集群查询,我只得到一个集群,如下所示
<arr name="clusters">
<lst>
<arr name="labels">
<str>Other Topics</str>
</arr>
<double name="score">0.0</double>
<bool name="other-topics">true</bool>
<arr name="docs">
<str>#.txt</str>
<str>abci-britanicos-pizzerias-201312120250.txt</str>
<str>abci-arqueologos-israelis-descubren-primer-201312111303.txt</str>
<str>abci-autoridad-fiscal-pensiones-201312111956.txt</str>
<str>abci-buenas-razones-para-cambiar-201312110933.txt</str>
<str>abci-audio-asamblea-aserpinto-201312112139.txt</str>
<
</arr>
</lst>
</arr>
其他议题
0
真的
#.txt
abci-britanicos-pizzerias-20131220250.txt
abci-arqueologos-Israels-descubren-primer-20131211303.txt
abci-autoridad-fiscal-pensions-201312111956.txt
abci-buenas-razones-para-cambiar-20131210933.txt
abci-audio-asamblea-ASERPITO-20131212139.txt
<
我应该得到更多的聚类我的语料库包含60个文本文档为了让搜索结果聚类在Solr中工作,必须存储为聚类传递的标题和内容字段。Solr架构中的声明可能如下所示:
<field name="content" type="text" indexed="true" stored="true" />
除了Stanislaw所说的存储字段外,请提供用于聚类的查询,以及理想情况下用于索引数据的完整模式
如果索引中只有60个文档,并且查询与文档的一小部分匹配,那么就不会有任何可用于群集的内容。在cluster workbench中群集正在工作,因此我猜我的solr架构没有任何问题我猜群集的solr配置在使用workbench时可能有问题,您仍然需要将内容保存在存储字段中。这是因为聚类算法需要原始文本,以便能够分析单词序列。如果您的字段已编入索引但未存储,则此类信息不可用。我的内容字段已编入索引并存储检查问题中给出的架构您是否可以发送电子邮件给我进行调试?stanislaw.osinski您的电子邮件??
<field name="content" type="text" indexed="true" stored="true" />