Machine learning 基于ML实例的学习

Machine learning 基于ML实例的学习,machine-learning,artificial-intelligence,Machine Learning,Artificial Intelligence,我对机器学习很陌生,我一直在读一本书,作者在书中描述了基于实例的学习,如下所示 可能最简单的学习形式就是背诵。如果要创建垃圾邮件过滤器 这样,它将只标记所有与用户已标记的电子邮件相同的电子邮件 -这不是最坏的解决方案,但肯定不是最好的 除了标记与已知垃圾邮件相同的电子邮件之外,您的垃圾邮件过滤器还可以 程序还可以标记与已知垃圾邮件非常相似的电子邮件。这需要一个衡量标准 两封电子邮件之间的相似性。两封电子邮件之间的一个(非常基本的)相似性度量可以是计数 他们有共同点的单词数量。如果邮件中有很多单词

我对机器学习很陌生,我一直在读一本书,作者在书中描述了基于实例的学习,如下所示

可能最简单的学习形式就是背诵。如果要创建垃圾邮件过滤器 这样,它将只标记所有与用户已标记的电子邮件相同的电子邮件 -这不是最坏的解决方案,但肯定不是最好的

除了标记与已知垃圾邮件相同的电子邮件之外,您的垃圾邮件过滤器还可以 程序还可以标记与已知垃圾邮件非常相似的电子邮件。这需要一个衡量标准 两封电子邮件之间的相似性。两封电子邮件之间的一个(非常基本的)相似性度量可以是计数 他们有共同点的单词数量。如果邮件中有很多单词,系统会将其标记为垃圾邮件 与已知的垃圾邮件相同

这被称为基于实例的学习:系统背诵示例,然后推广到新的领域 使用相似性度量的案例


但是我不能完全理解,因为他使用了
相似的
相同的
。我不明白其中的区别。如有任何解释,将不胜感激。谢谢。

完全相同的字面意思是完全相同的-零差异,完全匹配

字符串“aaaaa”和“aaaaa”是相同的。除了字符串本身之外,没有任何其他字符串可以与“aaaaa”相同

同样,在字面意义上也使用了类似的词语。“aaaaa”和“aaaab”不相同,它们有一个字符不同。但它们的相似之处在于,它们共有5个字符中的4个。有许多可能的字符串类似于“aaaaa”

天真地观察字符串中不同字符的数量是定义相似性的一种方法

所有基于实例的学习的诀窍在于回答以下问题:我们如何明确定义此应用程序的相似性。每个应用程序都可能从不同的相似性度量中受益,尽管有一些常见的度量确实存在并经常被重复使用,但这并不意味着它们是最优的