Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/271.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 通过uknown常用词在MYSQL中查找匹配项_Php_Mysql_Sql_Multiple Matches - Fatal编程技术网

Php 通过uknown常用词在MYSQL中查找匹配项

Php 通过uknown常用词在MYSQL中查找匹配项,php,mysql,sql,multiple-matches,Php,Mysql,Sql,Multiple Matches,我正在处理一个MYSQL表,在这个表中,我收集了用户在过去两年中报告的数千(20000)个问题。现在我必须分开处理这些报道的问题, 我面临的问题是,这些报道中的许多问题都是相似的(我指的是很多)。我想在桌子上找到匹配的 我在这里再次遇到的问题是,“报告的问题”是手工编写的,因此它们彼此不同。但是匹配可能包含一些常用词 所以我想知道是否有一种方法可以通过常用词在MYSQL表中查找匹配项 我在这里试图做的是在不使用任何特定关键字的情况下重新驱动类似的行(在许多关键字中都是马赫数) 有什么工具可以做到

我正在处理一个MYSQL表,在这个表中,我收集了用户在过去两年中报告的数千(20000)个问题。现在我必须分开处理这些报道的问题, 我面临的问题是,这些报道中的许多问题都是相似的(我指的是很多)。我想在桌子上找到匹配的

我在这里再次遇到的问题是,“报告的问题”是手工编写的,因此它们彼此不同。但是匹配可能包含一些常用词

所以我想知道是否有一种方法可以通过常用词在MYSQL表中查找匹配项

我在这里试图做的是在不使用任何特定关键字的情况下重新驱动类似的行(在许多关键字中都是马赫数)

有什么工具可以做到这一点吗?有办法吗?
我也对我工作中遇到的所有类型的php脚本持开放态度,提前谢谢你

首先,我会向具有领域知识的人询问他们的绝对前2或3个重复出现的问题。他们应该能把这些卷起来

让他们向您提供在这2或3个主要问题中使用的术语和同义词,否则您将不得不自己完成这项工作

克隆表并在其上放置索引,然后查看全文搜索在识别匹配问题方面的效果

如果这不能从语料库中产生很好的结果,我会感到惊讶,但是如果它们不够好,那么您可能想进入NLP(自然语言处理)领域——更自然的适合这一领域的是可以与Python一起使用的工具集


另一种选择是构建某种标记系统,但最好的标记系统依赖于人工干预,其成功与否在很大程度上取决于GUI构建的好坏。

不确定问题是否复杂,您是否描述得不好,或者它只是一些简单的问题,但看起来很复杂。。。首先给我们看一些这些词或类似词的例子。手动书写是指有人写汽车和汽车?那你怎么找这个?你必须向我们展示更多,这样我们才能理解,也许最好在将来限制一些标签的输入范围。但就目前而言,它可能需要一些有趣的php代码,或者取决于此搜索的准确性。感谢@WigglerJtag的支持,我正在寻找的正是我在这里试图做的,就是在不使用任何特定关键字的情况下重新驱动类似行(在许多关键字中都有马赫数),是的,我想我需要一些有趣的php代码:)不知道你的编程知识,但这不是一件容易的任务。第一个脚本,我会从数据库中抓取所有这些关键字,看看它们有多相似。然后我将决定如何创建这些单词的数组,不确定是否有1000或100000个不同的单词。然后我将使用下一个脚本在数据库中搜索全文等。你不具体,所以我不能具体。报道的问题应该在某个类别,是那些电影,汽车,音乐等,这是你必须依赖的。如果你的DB是关于汽车的,我会花一天的时间来创建我自己的关于汽车的数组。再次感谢你,我必须解决这里的问题:第一,“报告的问题”表直到现在还在增长。其次,也是最糟糕的一点:/My db可以是专业领域的一切,药店、汽车、医院、医生,以及其他一切,我唯一能想到的atch关键字是城市,因为每个报告的问题都包含生成表中的一个城市。我明白了做我想做的事情是多么的困难,所以报道的专栏甚至可以容纳像“你好,你好吗?”这样的文本,为什么要匹配这些文本,分组呢?这样做的目的是什么?Tank you@cups,我将尝试执行上面提到的操作,之后我会立即通知您:)