Nlp 如何对HTML文件进行分类?

Nlp 如何对HTML文件进行分类?,nlp,classification,opennlp,Nlp,Classification,Opennlp,我试图根据HTML文件的内容对其进行分类。使用JSoup,我检索了HTML文件的标题和描述部分。然后,使用opennlp句子检测器,我识别了一系列句子 不过,我不知道如何进一步进行。我可以简单地在这些句子中查找某些关键字并进行分类,但这又让我感觉我在编写一个简单的if..else..语句,而没有充分利用NLP的潜力 我想训练我的代码来进行分类,但我不确定如何实现

我试图根据HTML文件的内容对其进行分类。使用JSoup,我检索了HTML文件的标题和描述部分。然后,使用opennlp句子检测器,我识别了一系列句子

不过,我不知道如何进一步进行。我可以简单地在这些句子中查找某些关键字并进行分类,但这又让我感觉我在编写一个简单的
if..else..
语句,而没有充分利用NLP的潜力

我想训练我的代码来进行分类,但我不确定如何实现