用spark解析HTML

用spark解析HTML,html,scala,html-parsing,apache-spark,Html,Scala,Html Parsing,Apache Spark,我想做以下事情: 从csv文件加载html源 编写一组函数,从html源代码中提取一些功能。当我雇佣BeautifulSoup来做这项工作时,我曾经用Python来做这项工作。现在我使用spark并用scala编写代码。我一直在寻找一些很好的例子,但没有找到太多。 我希望你们能给出一些详尽的回答,如果不能的话,也许你们至少可以为我回答以下一个问题: 我对输入数据格式有一些灵活性,但我认为csv将是最简单的。然后我必须避开分隔符。使用sparkContext.textFile读取文件时如何执行此操

我想做以下事情:

从csv文件加载html源 编写一组函数,从html源代码中提取一些功能。当我雇佣BeautifulSoup来做这项工作时,我曾经用Python来做这项工作。现在我使用spark并用scala编写代码。我一直在寻找一些很好的例子,但没有找到太多。 我希望你们能给出一些详尽的回答,如果不能的话,也许你们至少可以为我回答以下一个问题:

我对输入数据格式有一些灵活性,但我认为csv将是最简单的。然后我必须避开分隔符。使用sparkContext.textFile读取文件时如何执行此操作? 使用什么库/函数为每个源构建DOM树,这些源将位于我的RDD的一行中。使用一些XML解析器可以吗?我不确定我是否理解HTML解析器与XML解析器的区别。我认为HTML是XML的一个子集,但我读到的并不完全正确,而且XML解析器并不真正适合HTML,因为HTML更宽松。那么如何解析HTML呢?
谢谢,谢谢

对于您问题的解析部分,我建议您使用Java编写的HTML解析器。它相当于美丽的乌苏