用spark解析HTML_Html_Scala_Html Parsing_Apache Spark

用spark解析HTML

html scala apache-spark

用spark解析HTML,html,scala,html-parsing,apache-spark,Html,Scala,Html Parsing,Apache Spark,我想做以下事情：从csv文件加载html源编写一组函数，从html源代码中提取一些功能。当我雇佣BeautifulSoup来做这项工作时，我曾经用Python来做这项工作。现在我使用spark并用scala编写代码。我一直在寻找一些很好的例子，但没有找到太多。我希望你们能给出一些详尽的回答，如果不能的话，也许你们至少可以为我回答以下一个问题：我对输入数据格式有一些灵活性，但我认为csv将是最简单的。然后我必须避开分隔符。使用sparkContext.textFile读取文件时如何执行此操

我想做以下事情：

从csv文件加载html源编写一组函数，从html源代码中提取一些功能。当我雇佣BeautifulSoup来做这项工作时，我曾经用Python来做这项工作。现在我使用spark并用scala编写代码。我一直在寻找一些很好的例子，但没有找到太多。我希望你们能给出一些详尽的回答，如果不能的话，也许你们至少可以为我回答以下一个问题：

我对输入数据格式有一些灵活性，但我认为csv将是最简单的。然后我必须避开分隔符。使用sparkContext.textFile读取文件时如何执行此操作？使用什么库/函数为每个源构建DOM树，这些源将位于我的RDD的一行中。使用一些XML解析器可以吗？我不确定我是否理解HTML解析器与XML解析器的区别。我认为HTML是XML的一个子集，但我读到的并不完全正确，而且XML解析器并不真正适合HTML，因为HTML更宽松。那么如何解析HTML呢？

谢谢，谢谢

对于您问题的解析部分，我建议您使用Java编写的HTML解析器。它相当于美丽的乌苏