Artificial intelligence 需要一些关于我的SVM特征优化的建议吗

Artificial intelligence 需要一些关于我的SVM特征优化的建议吗,artificial-intelligence,data-mining,Artificial Intelligence,Data Mining,我已经在SVM上训练了一个系统,这是一个问题,这个网页是否适合回答这个问题 我选择的功能是“网页中的术语频率”、“术语是否与网页标题匹配”、“网页中的图像数量”、“网页长度”、“是否是维基百科页面?”、“搜索引擎返回的列表中此网页的位置” 目前,我的系统将保持精度在0.4左右,召回率为1。它有很大一部分误报错误(我的分类器将许多坏链接归类为好链接) 由于准确性可以提高一点,我想在这里寻求一些帮助,以考虑完善我为培训/测试选择的功能,可以删除一些或添加更多 提前谢谢。嗯 你的训练设备有多大?i、

我已经在SVM上训练了一个系统,这是一个问题,这个网页是否适合回答这个问题

我选择的功能是“网页中的术语频率”、“术语是否与网页标题匹配”、“网页中的图像数量”、“网页长度”、“是否是维基百科页面?”、“搜索引擎返回的列表中此网页的位置”

目前,我的系统将保持精度在0.4左右,召回率为1。它有很大一部分误报错误(我的分类器将许多坏链接归类为好链接)

由于准确性可以提高一点,我想在这里寻求一些帮助,以考虑完善我为培训/测试选择的功能,可以删除一些或添加更多

提前谢谢。

  • 你的训练设备有多大?i、 例如,您使用了多少培训文档
  • 您的测试集由什么组成
  • 因为你的FPs太多了,我会尝试使用更多(和各种各样的)“坏”网页进行训练
  • 你能详细介绍一下你的不同功能吗,比如“网页中的tf”等等

是的,谢谢,术语频率是网页中出现关键词的频率。这些关键词由我手动确定,从原始问题中提取2或3个最重要和决定性的关键词,然后计算其在网页中的频率。好吧,没有更多细节,除了我的原始建议之外,我帮不上什么忙。你可能会想出更多的功能,比如:-答案中的字数也在相关的维基百科条目中-答案的复杂性(通过阅读水平计算器;这可能只适用于非常技术性或科学性的问题),如果你使用短语作为推荐的基础,你可能会错过同义词。如果问题是关于医生的,而答案是关于医生的,那么它可能不会被发现。无论如何,整合WordNet可能是值得的。