非停止字符的MongoDB全文索引字符(标记化分隔符)
假设我希望在文本字段上有一个“文本索引”,如下所示,用于部分搜索和高级搜索: “supertext:“a111=Salvador a111=Salv a111=Salvad a111=Salvad a111=Salvad a113=Hernandez a113=Hern a113=Herna a113=Hernan a113=Hernan a113=Hernand” 等号似乎是解析器的标记化分隔符(停止字符)之一。这是指unicode 8.0字符数据库道具列表中的unicode字符:破折号、连字符、模式语法、引号、终端标点和空格: 我想知道的恰恰相反。我可以使用哪些非标记化分隔符的特殊字符 我想在文本字段中找到“a111=Salvador”。现在,搜索“a111=Salvador”和“Salvador”返回相同或相似的分数 例如,在存储数据时,我还可以使用什么,例如:非停止字符的MongoDB全文索引字符(标记化分隔符),mongodb,indexing,full-text-indexing,Mongodb,Indexing,Full Text Indexing,假设我希望在文本字段上有一个“文本索引”,如下所示,用于部分搜索和高级搜索: “supertext:“a111=Salvador a111=Salv a111=Salvad a111=Salvad a111=Salvad a113=Hernandez a113=Hern a113=Herna a113=Hernan a113=Hernan a113=Hernand” 等号似乎是解析器的标记化分隔符(停止字符)之一。这是指unicode 8.0字符数据库道具列表中的unicode字符:破折号、连字
a111#Salvador
a111@Salvador
a111`Salvador
似乎有人有过这样的经验,而不是我花几个小时在Unicode页面上搜索不存在的字符
或者我需要更长的字母字符序列,还是不需要字符
a111valueSalvador
a111Salvador
从当前主分隔符可以看出:
delim_properties = [
"White_Space", "Dash", "Hyphen", "Quotation_Mark", "Terminal_Punctuation", "Pattern_Syntax",
"STerm"
]
这让你有很多其他的符号可供选择。尝试中间点,例如:
00B7 ; Other_ID_Continue # Po MIDDLE DOT
0387 ; Other_ID_Continue # Po GREEK ANO TELEIA
用U+00B7测试-a111·Salvador
完成了这项工作,看起来很整洁
用python术语来说:
separator = '\u00B7'
sample = "a111" + separator + "Salvador"
print(sample)
我想试试表情符号。