Algorithm 我们如何在这类数据上使用机器学习算法?

Algorithm 我们如何在这类数据上使用机器学习算法?,algorithm,machine-learning,artificial-intelligence,data-analysis,supervised-learning,Algorithm,Machine Learning,Artificial Intelligence,Data Analysis,Supervised Learning,以下是场景: 我们有一个网站,可以让学生创建一个电子公文包,就像一个个人资料页面,与你可以添加到其中的项目相结合 对于每个学生的档案袋,我们将让一位教育工作者审查档案袋,并根据档案袋的内容给它一组分数。因此,一组总分将与每个学生的档案相关联 所以我们有分数数据,与投资组合数据相关联,我们想用这些数据作为机器学习算法的监督训练数据。因此,计算机可以检查数千个这样的案例,寻找模式,提供见解,并能够预测其他投资组合的得分 以下是我们为每个人收集的数据: **Portfolio data:** Abo

以下是场景:

我们有一个网站,可以让学生创建一个电子公文包,就像一个个人资料页面,与你可以添加到其中的项目相结合

对于每个学生的档案袋,我们将让一位教育工作者审查档案袋,并根据档案袋的内容给它一组分数。因此,一组总分将与每个学生的档案相关联

所以我们有分数数据,与投资组合数据相关联,我们想用这些数据作为机器学习算法的监督训练数据。因此,计算机可以检查数千个这样的案例,寻找模式,提供见解,并能够预测其他投资组合的得分

以下是我们为每个人收集的数据:

**Portfolio data:**

About: 'Text paragraph data written by the student about themselves'
Skills: 'Text Bullet list of skills'
Career Interests: 'Text Bullet list of career interests'
Work Experience: 'Text paragraph'
Education History: 'Student fills out Universities, majors, gpa, and dates attended'
Courses: 'Text bullet list of courses'
Interests: 'Text paragraph data written by student about interests'
Works: 'Each student adds works to there portfolio and enter the following data'
   Work Title: 'Text title'
   Attachments: 'File and documents attached to the portfolio (jpg, doc, pdf, youtube, dropbox, etc.)
   Work description: 'Text Description of work'
   category of works: 'Selected from list of categories'
   tags: 'list of test tags student adds to work'
   My contribution: 'Text description of students contribution to project'


**Score data we are collecting for each portfolio, each key area rated from 1-100:**

Content completeness:
Selection of Works:
Reflection:
Academic Concepts:
Presentation and Appearance:
Layout and Readability:
Use of Multimedia:
Audience:
Organization of content:
Written Communication:
TOTAL SCORE:

随着时间的推移,我们计划收集数千名学生的档案和分数。我们可以使用什么样的算法来分析这些数据,以发现获得相似分数的投资组合之间的相关性?然后利用这些数据预测学生填写完档案后,档案袋的成功程度。请让我知道,如果有任何这是困惑或如果你需要更多的信息,非常感谢

这里有很多问题需要解决

首先想到的是进行特征提取,然后应用回归预测分数。现在,由于您使用的不仅仅是公文包中的文本信息,因此您需要的不仅仅是文本特性。我不知道什么功能可以帮助你将投资组合的“展示和外观”与他们的分数联系起来。一种方法是获取颜色、字体、字体大小信息,并将它们表示为特征。为了从文本中获得见解,可以使用向量空间模型来表示文本


我很快就会回来写一份详细的答复。如果所有这些现在听起来都太模糊,我很抱歉。

所有这些都将取决于您用来描述投资组合的功能。算法的重要性不高。听起来像是一个回归问题,但正如ziggystar所说,特征将是最重要的——我是机器学习特征选择的新手。你是说我需要从投资组合中挑选数据的某些属性来使用吗?基于这个问题,你能给我提供更多关于如何解决这个问题的见解吗?这对我来说似乎很棘手,因为机器学习算法需要比较文本数据…非常感谢lastlegion!这是非常有帮助的。我将开始研究特征提取和回归。是的,我可能会省略演示文稿和外观分数,或者包括字体和间距信息。但由于该网站主要管理外观,因此将其忽略是有意义的。我将在这里发布更新,我期待着阅读您提供的更多信息!你真是太棒了,太感谢你了!我还在想,把一组分数相加成一个总分,只把总分和每个投资组合联系起来会不会更容易呢?与其给机器学习问题一组分数,不如只给它一个分数和每个分数的投资组合数据……或者更详细的分数信息有助于分析?我想会的,但也许会让问题变得更复杂。。。