Java 有人愿意解释一下吗；标记化字段“；在数据库方面？_Java_Sql_Mysql_Database_Indexing

Java 有人愿意解释一下吗；标记化字段“；在数据库方面？

java sql mysql database indexing

Java 有人愿意解释一下吗；标记化字段“；在数据库方面？,java,sql,mysql,database,indexing,Java,Sql,Mysql,Database,Indexing,我正在阅读有关SOLR的文章，并将MySQL数据库索引到SOLR中 “标记化”和“非标记化”是什么意思字段“规范化”意味着什么我知道规范化数据库的方法和意义，但是字段？如何规范化一个简单字段感谢标记器将字符流拆分为单词，这些单词是搜索的原子单位。字符串可以根据空格、单词边界等进行拆分。这些单词通常在第二阶段通过过滤器，对单词应用额外的转换（如soundex代码、porter词干分析等）。结果是可以有效比较的单词的规范化表示例如：“猫吃奶酪！”可以规范化为：1）猫2）吃奶酪 “the”被

我正在阅读有关SOLR的文章，并将MySQL数据库索引到SOLR中

“标记化”和“非标记化”是什么意思

字段“规范化”意味着什么

我知道规范化数据库的方法和意义，但是字段？如何规范化一个简单字段

感谢

标记器将字符流拆分为单词，这些单词是搜索的原子单位。字符串可以根据空格、单词边界等进行拆分。这些单词通常在第二阶段通过过滤器，对单词应用额外的转换（如soundex代码、porter词干分析等）。结果是可以有效比较的单词的规范化表示

例如：“猫吃奶酪！”可以规范化为：1）猫2）吃奶酪

“the”被删除（stopword），cat现在是单数（词干），标点符号消失了，单词的大小写变为小写

他们所说的“标记化”和 “非标记化”

标记字段可以进行全文搜索，即查找字段中任何位置出现的任何单词。只有当您有完整且准确的匹配项时，才会找到未标记的字段，例如，如果字段的内容为“blue moon”，则仅当您搜索“blue moon”时，而不是仅搜索“blue moon”时，才会找到该字段

当字段为 “正常化”

这很可能是指-Unicode对变音符号有单独的代码点，例如U+0060是`（严重重音），因此重音字母è可以是一个Unicode字符（U+00E8）或由两个字符（U+0060和U+0065）组成。但当然，当你搜索è时，你希望两者都被找到