Talend中模糊匹配的优化

Talend中模糊匹配的优化,talend,fuzzy-logic,fuzzy-comparison,Talend,Fuzzy Logic,Fuzzy Comparison,我使用Talend检查数据质量,比较两个数据库中人员的姓名。 一个数据库的名称正确,另一个数据库的名称损坏。我要做的是比较两个名字,并从损坏的名字中找到正确的名字 我正在使用tFuzzyMatch组件来匹配名称 名称正确的数据库有212000条记录 名称不正确的数据库有50000条记录 tFuzzyMatch需要花费大量时间为每个损坏的名称查找正确的名称 有人能帮我优化tFuzzyMatch以减少执行时间吗 我的工作是这样的: 请看一下模糊匹配查找。它有3124340行 我想加快模糊匹配查找

我使用Talend检查数据质量,比较两个数据库中人员的姓名。 一个数据库的名称正确,另一个数据库的名称损坏。我要做的是比较两个名字,并从损坏的名字中找到正确的名字

我正在使用tFuzzyMatch组件来匹配名称

名称正确的数据库有212000条记录

名称不正确的数据库有50000条记录

tFuzzyMatch需要花费大量时间为每个损坏的名称查找正确的名称

有人能帮我优化tFuzzyMatch以减少执行时间吗

我的工作是这样的:

请看一下模糊匹配查找。它有3124340行


我想加快模糊匹配查找

你能发布你的工作布局和任何相关组件的屏幕截图,如tFuzzyMatch和工作中的任何其他关键组件吗?在看不到你做了什么的情况下,很难看到要优化什么。我已经将你的工作布局编辑到了这个问题中。您还可以提供tFuzzyMatch配置的屏幕截图吗?大致了解你从工作中获得的速度(例如行/秒)以及你的目标也是很有用的。