Machine learning 是否有任何模型/分类器最适合这样基于NLP的项目?

Machine learning 是否有任何模型/分类器最适合这样基于NLP的项目?,machine-learning,deep-learning,nlp,text-classification,Machine Learning,Deep Learning,Nlp,Text Classification,我写了一个程序来分析网站上的一段文字,并对其有效性进行分类。该代码基本上实时矢量化了从给定网页的HTML中获取的描述,并将其中的一些输入作为功能来做出决策。还有一些功能,比如网站的域名和一些我已经明确统计过的关键词 我所能达到的最高精度是使用RandomForestClassifier,>90%。我不确定我能做些什么来提高这种准确性,除了合并一个更复杂的模型。我尝试使用MLP,但对于超参数集,它似乎没有超过之前的精度。我有大约2000个数据点可用于培训 有没有最适合此类项目的分类器?有人对我如何

我写了一个程序来分析网站上的一段文字,并对其有效性进行分类。该代码基本上实时矢量化了从给定网页的HTML中获取的描述,并将其中的一些输入作为功能来做出决策。还有一些功能,比如网站的域名和一些我已经明确统计过的关键词

我所能达到的最高精度是使用RandomForestClassifier,>90%。我不确定我能做些什么来提高这种准确性,除了合并一个更复杂的模型。我尝试使用MLP,但对于超参数集,它似乎没有超过之前的精度。我有大约2000个数据点可用于培训

有没有最适合此类项目的分类器?有人对我如何改进有什么建议吗?如果有什么需要详细说明的,我会这样做

对我如何改进这个项目有什么建议吗?我应该在网页上也包含文本吗?我应该怎样做?我试着浏览了几个站点,但是下一个站点似乎没有包含在任何特定的元素中,而描述很容易从HTML中获得。有什么帮助吗


还有什么可以作为功能?如果有人能提出任何有创意的想法,我将不胜感激。

您可以使用关键词NLP进行搜索。你所面临的任务是深度学习研究中的一个热门话题,被称为自然语言处理

RandomForest是一种机器学习算法,可能工作得很好。使用其他机器学习算法可能会提高准确性,也可能不会。如果你想尝试其他轻量级的机器学习算法,那没关系

深度学习最有可能超越您当前的模型,从关键字NLP开始,您将发现许多模型,希望是Word2Vec、Bert等等。您可以在github上找到所有代码。 给你的一个建议是仔细考虑你是否能训练这个模型。尝试从头开始训练伯特对于一个新手来说是一件疯狂的事情,甚至对于一个专家来说也是如此。试着带上预先训练好的模型并对其进行微调,或者只带上单词向量


我希望这能奏效。

嗨,我已经在我的项目中使用了GloVe Word2Vec模型。我也使用了大多数自然语言处理项目中使用的标准过程。我在问题中加入了NLP,所以我知道它的意思。关于如何使用更好的功能等,还有其他建议吗?根据您的描述,除了文本本身,似乎没有其他功能可以用于模型。我要尝试的是,用BERT对文本进行矢量化,并用几个完全连接的层建立一个模型。如果有足够的数据,这种方法肯定会优于randomforest算法。伯特好些了吗?你能给我一些链接吗?多少数据就是足够的数据?我只有大约2100个样品。