Java 从网页中剥离HTML并计算词频？_Java_Html_Groovy_Html Content Extraction_Text Extraction

Java 从网页中剥离HTML并计算词频？

java html groovy

Java 从网页中剥离HTML并计算词频？,java,html,groovy,html-content-extraction,text-extraction,Java,Html,Groovy,Html Content Extraction,Text Extraction,在Groovy中，如何抓取网页并删除HTML标记等，只留下文档的文本？我想将结果转储到一个集合中，这样我就可以构建一个词频计数器最后，让我再次提到，我希望在Groovy中执行此操作。您可以使用来吐出文档文本并保存它是否要自动执行此操作？是否需要一个单独的应用程序来执行此操作？或者，您是否需要帮助将其编码到您的应用程序中？它将在什么平台（windows桌面、web服务器等）上运行？假设您希望使用Groovy（根据Groovy标记进行猜测），您的方法可能是高度面向shell脚本或使用Java库。

在Groovy中，如何抓取网页并删除HTML标记等，只留下文档的文本？我想将结果转储到一个集合中，这样我就可以构建一个词频计数器

最后，让我再次提到，我希望在Groovy中执行此操作。

您可以使用来吐出文档文本并保存它

是否要自动执行此操作？是否需要一个单独的应用程序来执行此操作？或者，您是否需要帮助将其编码到您的应用程序中？它将在什么平台（windows桌面、web服务器等）上运行？

假设您希望使用Groovy（根据Groovy标记进行猜测），您的方法可能是高度面向shell脚本或使用Java库。对于shell脚本，我同意moogs，使用Lynx或Elinks可能是最简单的方法。否则，请查看（向下滚动以查找相关代码段）

您可能一直在寻找与Groovy一起使用的Java libs来进行HTML解析，因为似乎没有任何Groovy libs。如果您不使用Groovy，那么请发布所需的语言，因为根据您使用的语言，有很多种语言。

如果您想要从HTML中收集标记化的单词，那么您不能像XML一样解析它（需要是有效的XML）并获取标记之间的所有文本吗？像这样的怎么样：

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

def records=new-XmlSlurper（）.parseText（YOURHTMLSTRING）
def allNodes=records.depthFirst（）.collect{it}
def列表=[]
所有节点。每个节点{
it.text（）.tokenize（）.each{
请看我的清单。