Machine learning 哪些是好的机器学习编程练习?

Machine learning 哪些是好的机器学习编程练习?,machine-learning,artificial-intelligence,Machine Learning,Artificial Intelligence,理想情况下,它们将具有以下特征: 它们可以在一个晚上的编码中完成。不需要一周或更长的时间就能得到有趣的结果。这样,我就可以感觉到我在一次(可能几个小时)的静坐中就学到了什么,完成了什么 这些问题来自现实世界,或者至少是现实世界问题的玩具版本 如果问题需要数据来测试解决方案,那么就有现成的真实数据集,或者自己生成有趣的测试数据是很简单的 很容易评估我的工作做得有多好。当我测试我的解决方案时,从结果中可以清楚地看出,通过简单的检查,或者通过对结果质量的量化度量,我已经完成了一些不平凡的事情 大多数机

理想情况下,它们将具有以下特征:

  • 它们可以在一个晚上的编码中完成。不需要一周或更长的时间就能得到有趣的结果。这样,我就可以感觉到我在一次(可能几个小时)的静坐中就学到了什么,完成了什么

  • 这些问题来自现实世界,或者至少是现实世界问题的玩具版本

  • 如果问题需要数据来测试解决方案,那么就有现成的真实数据集,或者自己生成有趣的测试数据是很简单的

  • 很容易评估我的工作做得有多好。当我测试我的解决方案时,从结果中可以清楚地看出,通过简单的检查,或者通过对结果质量的量化度量,我已经完成了一些不平凡的事情


  • 大多数机器学习项目可能需要一些时间

    如何对文本进行贝叶斯分类

    NLTK工具包(Python的自然语言工具包)中的一个示例是电影评论。该工具包提供了标记为正面或负面的电影评论


    编写一个贝叶斯分类器,利用这些数据对电影评论进行分类以进行培训。

    实现以下算法:

    • Perceptron,margin Perceptron:您可以尝试使用任何人脸数据库检测人脸图像(对人脸图像和非人脸图像进行分类)。试试这个例子。您也可以尝试编写穷人的OCR系统
    • LVQ,Kohonen地图:你可以尝试压缩图像。你可以从任何墙纸网站下载大图片
    • 朴素贝叶斯分类器:你可以分类垃圾邮件,而不是垃圾邮件。还有更多的科学数据集,如和新闻组等,你必须根据文章确定主题
    • 反向传播,多层感知器:你们可以在脸上,或者垃圾邮件上,或者
    • 使用SGD的原始SVM线性学习:例如,您可以尝试使用数字
    有很多项目,有些需要几个小时,有些需要几天,但你肯定会学到很多。

    查看真实数据集

    例如,。 有关数据集的详细信息,请查看数据集说明


    即使是朴素贝叶斯分类器也能在这个数据集上获得很好的结果(超过95%的交叉验证准确率)。如果我没记错的话,通过一些变量选择,您甚至可以达到100%。

    实际数据集有任何具体问题吗?我可以从教科书中随机挑选一些东西来实施,但对于仅仅做一个练习来说,最好有明确的目标和数据来配合。我已经编辑了我的答案。