Java 有人愿意解释一下吗;标记化字段“;在数据库方面?

Java 有人愿意解释一下吗;标记化字段“;在数据库方面?,java,sql,mysql,database,indexing,Java,Sql,Mysql,Database,Indexing,我正在阅读有关SOLR的文章,并将MySQL数据库索引到SOLR中 “标记化”和“非标记化”是什么意思 字段“规范化”意味着什么 我知道规范化数据库的方法和意义,但是字段? 如何规范化一个简单字段 感谢标记器将字符流拆分为单词,这些单词是搜索的原子单位。字符串可以根据空格、单词边界等进行拆分。这些单词通常在第二阶段通过过滤器,对单词应用额外的转换(如soundex代码、porter词干分析等)。结果是可以有效比较的单词的规范化表示 例如:“猫吃奶酪!”可以规范化为:1)猫2)吃奶酪 “the”被

我正在阅读有关SOLR的文章,并将MySQL数据库索引到SOLR中

“标记化”和“非标记化”是什么意思

字段“规范化”意味着什么

我知道规范化数据库的方法和意义,但是字段? 如何规范化一个简单字段


感谢

标记器将字符流拆分为单词,这些单词是搜索的原子单位。字符串可以根据空格、单词边界等进行拆分。这些单词通常在第二阶段通过过滤器,对单词应用额外的转换(如soundex代码、porter词干分析等)。结果是可以有效比较的单词的规范化表示

例如:“猫吃奶酪!”可以规范化为:1)猫2)吃奶酪

“the”被删除(stopword),cat现在是单数(词干),标点符号消失了,单词的大小写变为小写

他们所说的“标记化”和 “非标记化”

标记字段可以进行全文搜索,即查找字段中任何位置出现的任何单词。只有当您有完整且准确的匹配项时,才会找到未标记的字段,例如,如果字段的内容为“blue moon”,则仅当您搜索“blue moon”时,而不是仅搜索“blue moon”时,才会找到该字段

当字段为 “正常化”

这很可能是指-Unicode对变音符号有单独的代码点,例如U+0060是`(严重重音),因此重音字母è可以是一个Unicode字符(U+00E8)或由两个字符(U+0060和U+0065)组成。但当然,当你搜索è时,你希望两者都被找到