Machine learning 基于机器学习方法的记录链接描述匹配

Machine learning 基于机器学习方法的记录链接描述匹配,machine-learning,artificial-intelligence,apache-spark-mllib,record-linkage,Machine Learning,Artificial Intelligence,Apache Spark Mllib,Record Linkage,我们正在进行记录链接项目 简单地说,我们只是通过查看描述的相似性来搜索数据库中的产品。这是一个非常有趣的问题要解决,但目前我们采用的机器学习方法导致了非常低的精度。如果你能提出一些非常横向的方法,这将对我们的项目有很大帮助 输入说明 +-----+----------------------------------------------+ | ID | description | -+----|----------------

我们正在进行记录链接项目

简单地说,我们只是通过查看描述的相似性来搜索数据库中的产品。这是一个非常有趣的问题要解决,但目前我们采用的机器学习方法导致了非常低的精度。如果你能提出一些非常横向的方法,这将对我们的项目有很大帮助

输入说明

+-----+----------------------------------------------+
 | ID | description                                  |
-+----|----------------------------------------------+
 |  1 |delta t17267-ss ara 17 series shower trim ss  |
 |  2 |delta t14438 chrome lahara tub shower trim on |
 |  3 |delta t14459 trinsic tub/shower trim          |
 |  4 |delta t17497 cp cassidy tub/shower trim only  |
 |  5 |delta t14497-rblhp cassidy tub & shower trim  |
 |  6 |delta t17497-ss cassidy 17 series tub/shower  |
-+---------------------------------------------------+
数据库中的描述

+---+-----------------------------------------------------------------------------------------------------+
|ID | description                                                                                         | 
----+-----------------------------------------------------------------------------------------------------+
| 1 | delta monitor17 ara® shower trim 2 gpm 1 lever handle stainless commercial                      |                       
| 2 | delta monitor 14 lahara® tub and shower trim 2 gpm 1 handle chrome plated residential           |                        
| 3 | delta monitor 14 trinsic® tub and shower trim 2 gpm 1 handle chrome plated residential          |                        
| 4 | delta monitor17 addison™ tub and shower trim 2 gpm 1 handle chrome plated domestic residential|                       
| 5 | delta monitor 14 cassidy™ tub and shower trim 2 gpm venetian bronze                           |                        
| 6 | delta monitor 17 addison™ tub and shower trim 2 gpm 1 handle stainless domestic residential   |
+---+-----------------------------------------------------------------------------------------------------+
背景资料

1.数据库中的记录基本上非常接近,这导致了巨大的问题

2.数据库中大约有200万条记录,但当我们搜索特定制造商时,搜索空间会减少,搜索空间会减少到几百条

3.记录ID为1的“输入说明”中的记录与记录ID为1的“数据库中的说明”中的记录相同(我们使用手动方法知道)

4.我们使用随机森林训练进行预测

当前方法

  • 我们将描述标记化

  • +-----+----------------------------------------------+
     | ID | description                                  |
    -+----|----------------------------------------------+
     |  1 |delta t17267-ss ara 17 series shower trim ss  |
     |  2 |delta t14438 chrome lahara tub shower trim on |
     |  3 |delta t14459 trinsic tub/shower trim          |
     |  4 |delta t17497 cp cassidy tub/shower trim only  |
     |  5 |delta t14497-rblhp cassidy tub & shower trim  |
     |  6 |delta t17497-ss cassidy 17 series tub/shower  |
    -+---------------------------------------------------+
    
  • 删除停止字

  • 添加缩写信息

  • 对于每个记录对,我们根据不同的字符串度量(如jacard、sorendice、余弦)计算分数,并计算所有这些分数的平均值

  • 然后,我们使用jaro-winker度量方法计算制造商Id的分数
  • 因此,如果在“输入说明”中有5条制造商记录,在“数据库”中有10条制造商记录,那么总的组合是50条记录对,即每条记录10对,这导致分数非常接近。我们从每组10对中考虑了前4对记录。在一个记录对的情况下,如果多个记录对的得分相似,我们考虑了所有记录对

    7.我们得出以下学习数据集格式

    |----------------------------------------------------------+---------------------------- +--------------+-----------+
    |ISMatch | Descrption average score  |manufacturer ID score| jacard score of description | sorensenDice | cosine(3) |
    |-------------------------------------------------------------------------------------------------------------------
    |1       | 1:0.19                   | 2:0.88               |3:0.12                       | 4:0.21       | 5:0.23    |
    |0       | 1:0.14                   |2:0.66                |3:0.08                       | 4:0.16       |  5:0.17   |
    |0       | 1:0.14                   |2:0.68                |3:0.08                       |4:0.15        |  5:0.19   |
    |0       | 1:0.14                   |2:0.58                |3:0.08                       |4:0.16        |  5:0.16   |
    |0       | 1:0.12                   |2:0.55                |3:0.08                       |4:0.14        |  5:0.14   |
    |--------+--------------------------+----------------------+--------------------------------------------+-----------+
    
    我们对上述数据集进行训练。当使用相同的方法实时预测时,精度非常低。 请提出任何其他替代方法

    我们计划使用TF-IDF,但初步调查显示,它也可能无法大幅提高准确性


  • 这不是spark java问题,请删除此标记。阿帕奇火花!=火花爪哇