Algorithm 我们如何在这类数据上使用机器学习算法？_Algorithm_Machine Learning_Artificial Intelligence_Data Analysis_Supervised Learning

Algorithm 我们如何在这类数据上使用机器学习算法？

algorithm machine-learning artificial-intelligence

Algorithm 我们如何在这类数据上使用机器学习算法？,algorithm,machine-learning,artificial-intelligence,data-analysis,supervised-learning,Algorithm,Machine Learning,Artificial Intelligence,Data Analysis,Supervised Learning,以下是场景：我们有一个网站，可以让学生创建一个电子公文包，就像一个个人资料页面，与你可以添加到其中的项目相结合对于每个学生的档案袋，我们将让一位教育工作者审查档案袋，并根据档案袋的内容给它一组分数。因此，一组总分将与每个学生的档案相关联所以我们有分数数据，与投资组合数据相关联，我们想用这些数据作为机器学习算法的监督训练数据。因此，计算机可以检查数千个这样的案例，寻找模式，提供见解，并能够预测其他投资组合的得分以下是我们为每个人收集的数据： **Portfolio data:** Abo

以下是场景：

我们有一个网站，可以让学生创建一个电子公文包，就像一个个人资料页面，与你可以添加到其中的项目相结合

对于每个学生的档案袋，我们将让一位教育工作者审查档案袋，并根据档案袋的内容给它一组分数。因此，一组总分将与每个学生的档案相关联

所以我们有分数数据，与投资组合数据相关联，我们想用这些数据作为机器学习算法的监督训练数据。因此，计算机可以检查数千个这样的案例，寻找模式，提供见解，并能够预测其他投资组合的得分

以下是我们为每个人收集的数据：

**Portfolio data:**

About: 'Text paragraph data written by the student about themselves'
Skills: 'Text Bullet list of skills'
Career Interests: 'Text Bullet list of career interests'
Work Experience: 'Text paragraph'
Education History: 'Student fills out Universities, majors, gpa, and dates attended'
Courses: 'Text bullet list of courses'
Interests: 'Text paragraph data written by student about interests'
Works: 'Each student adds works to there portfolio and enter the following data'
   Work Title: 'Text title'
   Attachments: 'File and documents attached to the portfolio (jpg, doc, pdf, youtube, dropbox, etc.)
   Work description: 'Text Description of work'
   category of works: 'Selected from list of categories'
   tags: 'list of test tags student adds to work'
   My contribution: 'Text description of students contribution to project'


**Score data we are collecting for each portfolio, each key area rated from 1-100:**

Content completeness:
Selection of Works:
Reflection:
Academic Concepts:
Presentation and Appearance:
Layout and Readability:
Use of Multimedia:
Audience:
Organization of content:
Written Communication:
TOTAL SCORE:

随着时间的推移，我们计划收集数千名学生的档案和分数。我们可以使用什么样的算法来分析这些数据，以发现获得相似分数的投资组合之间的相关性？然后利用这些数据预测学生填写完档案后，档案袋的成功程度。请让我知道，如果有任何这是困惑或如果你需要更多的信息，非常感谢

这里有很多问题需要解决

首先想到的是进行特征提取，然后应用回归预测分数。现在，由于您使用的不仅仅是公文包中的文本信息，因此您需要的不仅仅是文本特性。我不知道什么功能可以帮助你将投资组合的“展示和外观”与他们的分数联系起来。一种方法是获取颜色、字体、字体大小信息，并将它们表示为特征。为了从文本中获得见解，可以使用向量空间模型来表示文本

我很快就会回来写一份详细的答复。如果所有这些现在听起来都太模糊，我很抱歉。

所有这些都将取决于您用来描述投资组合的功能。算法的重要性不高。听起来像是一个回归问题，但正如ziggystar所说，特征将是最重要的——我是机器学习特征选择的新手。你是说我需要从投资组合中挑选数据的某些属性来使用吗？基于这个问题，你能给我提供更多关于如何解决这个问题的见解吗？这对我来说似乎很棘手，因为机器学习算法需要比较文本数据…非常感谢lastlegion！这是非常有帮助的。我将开始研究特征提取和回归。是的，我可能会省略演示文稿和外观分数，或者包括字体和间距信息。但由于该网站主要管理外观，因此将其忽略是有意义的。我将在这里发布更新，我期待着阅读您提供的更多信息！你真是太棒了，太感谢你了！我还在想，把一组分数相加成一个总分，只把总分和每个投资组合联系起来会不会更容易呢？与其给机器学习问题一组分数，不如只给它一个分数和每个分数的投资组合数据……或者更详细的分数信息有助于分析？我想会的，但也许会让问题变得更复杂。。。