Python 如何为推荐系统的机器学习模型准备训练集?有什么想法吗?

Python 如何为推荐系统的机器学习模型准备训练集?有什么想法吗?,python,csv,machine-learning,recommendation-engine,Python,Csv,Machine Learning,Recommendation Engine,我正在建立一个机器学习推荐系统,用于将应聘者与职位职位匹配 我有两个数据集。一个包含职位公告,另一个包含候选人。职位公告最初是从瑞典失业局用瑞典语检索的。我写了一个Python脚本,把那些招聘信息翻译成英语。每个职位都有一个标题和描述,这是一篇从一句到20句不等的文章。“描述”字段包含从职责、所需技能到一个职务公告所包含的所有内容 另一方面,包含候选人的数据集包含每个候选人的年龄、教育程度、以前的经验、知识和技能。每个候选人最多有六项技能。收集数据集中的所有技能,数据集是一个热编码的,这意味着我

我正在建立一个机器学习推荐系统,用于将应聘者与职位职位匹配

我有两个数据集。一个包含职位公告,另一个包含候选人。职位公告最初是从瑞典失业局用瑞典语检索的。我写了一个Python脚本,把那些招聘信息翻译成英语。每个职位都有一个标题和描述,这是一篇从一句到20句不等的文章。“描述”字段包含从职责、所需技能到一个职务公告所包含的所有内容

另一方面,包含候选人的数据集包含每个候选人的年龄、教育程度、以前的经验、知识和技能。每个候选人最多有六项技能。收集数据集中的所有技能,数据集是一个热编码的,这意味着我为每个可能的技能创建了一列,并根据用户对技能的了解将其标记为0或1

现在我需要准备一些数据来训练模型。我已经将候选人分为培训和测试组。我现在必须想办法从职位描述中提取关键词,并将其与应聘者的技能进行比较。从提取和定义关键词到在每个职位上交叉检查每个应聘者,你知道如何做到这些吗

任何帮助都将不胜感激


干杯

你想做一个推荐模型

我将假设你有目标数据候选人和职位公告,你知道它们是相互关联的,因为如果你没有,我看不出你如何做到这一点,至少不用机器学习,你所能做的就是用你的知识来写一条规则——你的大脑有来自你生活经验的数据,但算法没有

这可能是一个矩阵分解。我建议您尝试WNMF加权非负矩阵分解模型

为此,有3个步骤:

尝试在候选特征上嵌入层,每个特征对应一层。将这些向量加在一起,这将是潜在空间中候选对象的表示

找到一种方法将你的职位公告转换为相同长度的向量。您可能需要检查doc2vec来执行此操作。这远不是最难的一步,因为在保存信息的同时将文本转换为向量可能非常复杂。这就是为什么它也可能是一个好主意,建立一个功能,将每个文档映射到一个向量自己,即使它不是机器学习,文档是否包括单词computer?这需要很高的经验吗?了解哪些功能是重要的,并用这些功能构建一个向量


计算应聘者和职位发布向量的点积,得到你的预测。如果应聘者链接到该职位,则将其与目标1进行比较,如果没有,则与目标0进行比较。在回归中尝试这一点,您的预测将与候选人和工作匹配的概率相当。

对于关键词,您是否已经有了预先确定的列表,或者算法是否应该学习选择这些关键词?我会根据你的需要推荐这个教程:你好,乔丹,谢谢你的评论。不,我没有列表,但我认为最好定义一个。我来看看这个链接。谢谢。你好Jordans,我只是想让你知道我查看了你发送的链接。它描述了推荐系统,但没有学习。总而言之,谢谢!我明白你的观点。这大概也是我一直在思考的一种方法。我会尝试使用你建议的工具,看看它是否有效。谢谢