Solr Lucene:Java版本迁移无需重新索引

Solr Lucene:Java版本迁移无需重新索引,solr,lucene,java-8,java-6,Solr,Lucene,Java 8,Java 6,我最近遇到了一个问题,很想听听大家对这个问题的看法 前提条件: Lucene实现版本:2.9.1 索尔:1.4 爪哇6 存储中的大而重的索引:) 主要思想:将JDK版本从1.6更改为1.8 那么,这种改变是需要重新索引索引还是不需要索引索引 我找到的第一件东西是文件。但它只提到了与Unicode版本和Java1.4到Java5转换中的更改相关的一个已知问题。 在不同的JDK版本中,我没有发现Unicode版本存在任何其他已知的问题,这些问题可能会对现有的Lucene索引重新进行完全索引 还有

我最近遇到了一个问题,很想听听大家对这个问题的看法

前提条件:

  • Lucene实现版本:2.9.1
  • 索尔:1.4
  • 爪哇6
  • 存储中的大而重的索引:)
主要思想:将JDK版本从1.6更改为1.8

那么,这种改变是需要重新索引索引还是不需要索引索引

我找到的第一件东西是文件。但它只提到了与Unicode版本和Java1.4到Java5转换中的更改相关的一个已知问题。 在不同的JDK版本中,我没有发现Unicode版本存在任何其他已知的问题,这些问题可能会对现有的Lucene索引重新进行完全索引

还有,有人知道与JKD 1.6和JDK1.7(1.8)中不同版本的Unicode相关的一些问题吗

谢谢

附言。 此外,这是用于以下用途的所有分析仪和过滤器的列表:

  • WhitespaceTokenizerFactory
  • WordDelimiterFilterFactory
  • 小写过滤器工厂
  • 雪球波特过滤厂
  • 已移除的重复Stokenfilter工厂
  • ElisionFilterFactory
  • CJKTOKENIZER工厂
  • 泰沃过滤厂
  • ChineseSentenceTokenizer工厂
  • ChineseWordTokenFilterFactory

    • 我怀疑您是否需要重新编制索引。 Unicode 6.1添加了这些可能被CJK analyzer“看到”的符号:

      CJK Compatibility Ideographs {F900..FAFF} : 2 characters (U+FA2E and U+FA2F)
      CJK Unified Ideographs {4E00..9FFF} : 1 character (U+9FCC = Adobe-Japan1-6 CID+20156, a variant of U+6DBC 涼) 
      
      从理论上讲,其他变化甚至不会影响这些分析仪

      Unicode 6.2版本更简单,它只有一个新字符

      U+20BA  TURKISH LIRA SIGN    
      

      我认为没有必要重新编制索引。上述标记化程序依赖于不受上述更改影响的
      Character.isleter()
      方法。我严重怀疑更改中列出的任何字符是否在beging with的索引中。

      我怀疑是否需要重新编制索引。为什么不试试呢?