Machine learning 基于机器学习方法的记录链接描述匹配
我们正在进行记录链接项目 简单地说,我们只是通过查看描述的相似性来搜索数据库中的产品。这是一个非常有趣的问题要解决,但目前我们采用的机器学习方法导致了非常低的精度。如果你能提出一些非常横向的方法,这将对我们的项目有很大帮助 输入说明Machine learning 基于机器学习方法的记录链接描述匹配,machine-learning,artificial-intelligence,apache-spark-mllib,record-linkage,Machine Learning,Artificial Intelligence,Apache Spark Mllib,Record Linkage,我们正在进行记录链接项目 简单地说,我们只是通过查看描述的相似性来搜索数据库中的产品。这是一个非常有趣的问题要解决,但目前我们采用的机器学习方法导致了非常低的精度。如果你能提出一些非常横向的方法,这将对我们的项目有很大帮助 输入说明 +-----+----------------------------------------------+ | ID | description | -+----|----------------
+-----+----------------------------------------------+
| ID | description |
-+----|----------------------------------------------+
| 1 |delta t17267-ss ara 17 series shower trim ss |
| 2 |delta t14438 chrome lahara tub shower trim on |
| 3 |delta t14459 trinsic tub/shower trim |
| 4 |delta t17497 cp cassidy tub/shower trim only |
| 5 |delta t14497-rblhp cassidy tub & shower trim |
| 6 |delta t17497-ss cassidy 17 series tub/shower |
-+---------------------------------------------------+
数据库中的描述
+---+-----------------------------------------------------------------------------------------------------+
|ID | description |
----+-----------------------------------------------------------------------------------------------------+
| 1 | delta monitor17 ara® shower trim 2 gpm 1 lever handle stainless commercial |
| 2 | delta monitor 14 lahara® tub and shower trim 2 gpm 1 handle chrome plated residential |
| 3 | delta monitor 14 trinsic® tub and shower trim 2 gpm 1 handle chrome plated residential |
| 4 | delta monitor17 addison™ tub and shower trim 2 gpm 1 handle chrome plated domestic residential|
| 5 | delta monitor 14 cassidy™ tub and shower trim 2 gpm venetian bronze |
| 6 | delta monitor 17 addison™ tub and shower trim 2 gpm 1 handle stainless domestic residential |
+---+-----------------------------------------------------------------------------------------------------+
背景资料
1.数据库中的记录基本上非常接近,这导致了巨大的问题
2.数据库中大约有200万条记录,但当我们搜索特定制造商时,搜索空间会减少,搜索空间会减少到几百条
3.记录ID为1的“输入说明”中的记录与记录ID为1的“数据库中的说明”中的记录相同(我们使用手动方法知道)
4.我们使用随机森林训练进行预测
当前方法
+-----+----------------------------------------------+
| ID | description |
-+----|----------------------------------------------+
| 1 |delta t17267-ss ara 17 series shower trim ss |
| 2 |delta t14438 chrome lahara tub shower trim on |
| 3 |delta t14459 trinsic tub/shower trim |
| 4 |delta t17497 cp cassidy tub/shower trim only |
| 5 |delta t14497-rblhp cassidy tub & shower trim |
| 6 |delta t17497-ss cassidy 17 series tub/shower |
-+---------------------------------------------------+
|----------------------------------------------------------+---------------------------- +--------------+-----------+
|ISMatch | Descrption average score |manufacturer ID score| jacard score of description | sorensenDice | cosine(3) |
|-------------------------------------------------------------------------------------------------------------------
|1 | 1:0.19 | 2:0.88 |3:0.12 | 4:0.21 | 5:0.23 |
|0 | 1:0.14 |2:0.66 |3:0.08 | 4:0.16 | 5:0.17 |
|0 | 1:0.14 |2:0.68 |3:0.08 |4:0.15 | 5:0.19 |
|0 | 1:0.14 |2:0.58 |3:0.08 |4:0.16 | 5:0.16 |
|0 | 1:0.12 |2:0.55 |3:0.08 |4:0.14 | 5:0.14 |
|--------+--------------------------+----------------------+--------------------------------------------+-----------+
我们对上述数据集进行训练。当使用相同的方法实时预测时,精度非常低。
请提出任何其他替代方法
我们计划使用TF-IDF,但初步调查显示,它也可能无法大幅提高准确性这不是spark java问题,请删除此标记。阿帕奇火花!=火花爪哇