MySQL中的词干提取_Mysql_Sql_Mysql Workbench

MySQL中的词干提取

mysql sql

MySQL中的词干提取,mysql,sql,mysql-workbench,Mysql,Sql,Mysql Workbench,MySQL中的词干提取例如，用户可以搜索“测试”、“测试”或“测试”。所有这些单词都是相互关联的，因为它们的基本单词“test”都很常见。有没有办法获得这样的结果或功能？MySQL全文搜索历史上，MyISAM引擎支持全文搜索。在5.6版之后，MySQL还支持InnoDB存储引擎中的全文搜索。这是个好消息，因为它使开发人员能够受益于InnoDB的引用完整性、执行事务的能力和行级锁 MySQL中的全文搜索基本上有两种方法：自然语言和布尔模式。（第三个选项使用第二个扩展查询来增强自然语言搜索。）

MySQL中的词干提取例如，用户可以搜索“测试”、“测试”或“测试”。所有这些单词都是相互关联的，因为它们的基本单词“test”都很常见。

有没有办法获得这样的结果或功能？

MySQL全文搜索

历史上，MyISAM引擎支持全文搜索。在5.6版之后，MySQL还支持InnoDB存储引擎中的全文搜索。这是个好消息，因为它使开发人员能够受益于InnoDB的引用完整性、执行事务的能力和行级锁

MySQL中的全文搜索基本上有两种方法：自然语言和布尔模式。（第三个选项使用第二个扩展查询来增强自然语言搜索。）

自然模式和布尔模式之间的主要区别在于，布尔模式允许某些运算符作为搜索的一部分。例如，如果查询中某个词的相关性比其他词大，或者结果中应该出现某个特定词，则可以使用布尔运算符。值得注意的是，在这两种情况下，结果都可以按照MySQL在搜索过程中计算的相关性排序

最适合我们的问题是在布尔模式下使用InnoDb全文搜索。为什么？

我们几乎没有时间实现搜索功能
在这一点上，我们既没有需要处理的大数据，也没有需要像Elasticsearch或Sphinx这样的大规模负载
我们使用了不支持Elasticsearch或Sphinx的共享主机，在这个阶段，硬件非常有限
虽然我们希望在搜索函数中使用词干，但它并不是一个破坏者：我们可以通过一些简单的PHP编码和数据非规范化来实现它（在约束范围内）
布尔模式下的全文搜索可以使用通配符（用于词干分析）搜索单词，并根据相关性对结果进行排序

在标准化Vertabelo模型中

让我们看看简单的搜索是如何工作的。我们将首先创建一个示例表：

CREATE TABLE artists (
         id int(11) NOT NULL AUTO_INCREMENT, name varchar(255) NOT NULL,bio text NOT NULL, CONSTRAINT artists_pk PRIMARY KEY (id)
                    )ENGINE InnoDB;
CREATE  FULLTEXT INDEX artists_idx_1 ON artists (name);

在自然语言模式下

您可以插入一些示例数据并开始测试。（最好将其添加到示例数据集中。）例如，我们将尝试搜索迈克尔·杰克逊：

SELECT
    *
FROM
    artists
WHERE
    MATCH (artists.name) AGAINST ('Michael Jackson' IN NATURAL LANGUAGE MODE)

此查询将查找与搜索词匹配的记录，并按相关性对匹配的记录进行排序；匹配越好，相关性越高，结果在列表中显示的越高。以布尔模式

我们可以在布尔模式下执行相同的搜索。如果我们不对查询应用任何运算符，唯一的区别是结果不会按相关性排序：

SELECT
    *
FROM
    artists
WHERE
    MATCH (artists.name) AGAINST ('Michael Jackson' IN BOOLEAN MODE)

布尔模式下的通配符运算符

因为我们要搜索词干和部分词，所以需要通配符操作符（*）。此运算符可用于布尔模式搜索，这就是我们选择该模式的原因

所以，让我们释放布尔搜索的力量，尝试搜索艺术家名字的一部分。我们将使用通配符运算符匹配名称以“Mich”开头的任何艺术家：

SELECT
    *
FROM
    artists
WHERE
    MATCH (name) AGAINST ('Mich*' IN BOOLEAN MODE)

（1）我删除了不相关的数据库标签。（2）词干分析不是关系数据库的适当操作。