Python 文本分类与分类;推荐

Python 文本分类与分类;推荐,python,machine-learning,Python,Machine Learning,我正在尝试创建一个机器学习算法,用于农村地区的地址分类或类似地址分类。我有一个历史数据,包括地址列表(自变量)、村名(自变量)、Pin码(自变量)、客户手机号和路线号(因变量)。路线号为送货车,这将有助于他们覆盖该区域内最大数量的送货目的地 挑战- “地址”可能拼写错误 “村庄名称”可以为空 “Pin码”可能是错误的 好事- 并非所有自变量都可以同时为错误/空 现在,创建此算法的目的是根据“地址”、“村庄”、“Pin码”和历史数据(其中我们手动选择了送货车的路线)选择最佳路线编号 我是初学者,我

我正在尝试创建一个机器学习算法,用于农村地区的地址分类或类似地址分类。我有一个历史数据,包括地址列表(自变量)、村名(自变量)、Pin码(自变量)、客户手机号和路线号(因变量)。路线号为送货车,这将有助于他们覆盖该区域内最大数量的送货目的地

挑战-

  • “地址”可能拼写错误
  • “村庄名称”可以为空
  • “Pin码”可能是错误的
  • 好事-

    并非所有自变量都可以同时为错误/空

    现在,创建此算法的目的是根据“地址”、“村庄”、“Pin码”和历史数据(其中我们手动选择了送货车的路线)选择最佳路线编号

    我是初学者,我不知道该怎么做,该用哪个流程

    我已经完成了任务

    地址清理-删除短词、大词、停止词


    现在尝试使用word vector,但我无法做到这一点。

    首先,您必须先构建一个数据集,其中包含尽可能多的村庄名称!因为许多村庄都有相似的名字,所以识别拼写错误是相当困难和危险的!有一两个字母的差别。所以,数据集越大越好。 然后,尝试使用村名和PIN码()的组合,或者使用模糊逻辑。 希望有帮助!快乐编码