Java 从网页中剥离HTML并计算词频?

Java 从网页中剥离HTML并计算词频?,java,html,groovy,html-content-extraction,text-extraction,Java,Html,Groovy,Html Content Extraction,Text Extraction,在Groovy中,如何抓取网页并删除HTML标记等,只留下文档的文本?我想将结果转储到一个集合中,这样我就可以构建一个词频计数器 最后,让我再次提到,我希望在Groovy中执行此操作。您可以使用来吐出文档文本并保存它 是否要自动执行此操作?是否需要一个单独的应用程序来执行此操作?或者,您是否需要帮助将其编码到您的应用程序中?它将在什么平台(windows桌面、web服务器等)上运行?假设您希望使用Groovy(根据Groovy标记进行猜测),您的方法可能是高度面向shell脚本或使用Java库。

在Groovy中,如何抓取网页并删除HTML标记等,只留下文档的文本?我想将结果转储到一个集合中,这样我就可以构建一个词频计数器

最后,让我再次提到,我希望在Groovy中执行此操作。

您可以使用来吐出文档文本并保存它


是否要自动执行此操作?是否需要一个单独的应用程序来执行此操作?或者,您是否需要帮助将其编码到您的应用程序中?它将在什么平台(windows桌面、web服务器等)上运行?

假设您希望使用Groovy(根据Groovy标记进行猜测),您的方法可能是高度面向shell脚本或使用Java库。对于shell脚本,我同意moogs,使用Lynx或Elinks可能是最简单的方法。否则,请查看(向下滚动以查找相关代码段)


您可能一直在寻找与Groovy一起使用的Java libs来进行HTML解析,因为似乎没有任何Groovy libs。如果您不使用Groovy,那么请发布所需的语言,因为根据您使用的语言,有很多种语言。

如果您想要从HTML中收集标记化的单词,那么您不能像XML一样解析它(需要是有效的XML)并获取标记之间的所有文本吗?像这样的怎么样:

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}
def records=new-XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes=records.depthFirst().collect{it}
def列表=[]
所有节点。每个节点{
it.text().tokenize().each{
请看我的清单。