Machine learning 网页内容语义的发现

Machine learning 网页内容语义的发现,machine-learning,nlp,semantics,Machine Learning,Nlp,Semantics,我需要找到网页中文本的语义。 i、 e找出网页内容是否是一首诗、一段对话或一篇文章等 我能感觉到这可以通过机器学习和自然语言处理来实现。如果有人能提供更多关于可以遵循的技巧的信息,以及一些研究论文的参考,这将是非常有帮助的。我会看看行/句子长度。对于这样的分类任务,它们被证明是相当有用的特征 如果您能够访问足够多的标记文本,您可以通过提取特征(字数、每行和每句的平均字数、总长度等)并让分类算法完成其余工作来训练分类器(例如,决策树或随机森林)

我需要找到网页中文本的语义。 i、 e找出网页内容是否是一首诗、一段对话或一篇文章等
我能感觉到这可以通过机器学习和自然语言处理来实现。如果有人能提供更多关于可以遵循的技巧的信息,以及一些研究论文的参考,这将是非常有帮助的。

我会看看行/句子长度。对于这样的分类任务,它们被证明是相当有用的特征

如果您能够访问足够多的标记文本,您可以通过提取特征(字数、每行和每句的平均字数、总长度等)并让分类算法完成其余工作来训练分类器(例如,决策树或随机森林)