Web scraping 哪种最简单的方法可以从抓取的web数据中剥离HTML,从而只剩下字符串?

Web scraping 哪种最简单的方法可以从抓取的web数据中剥离HTML,从而只剩下字符串?,web-scraping,nlp,data-cleaning,Web Scraping,Nlp,Data Cleaning,我对从各种网站收集大量文本很感兴趣。结果将有很多html。有没有一种简单的方法可以去掉HTML,这样我就只剩下可以分析的字符串了 我不介意付钱,但我更喜欢免费快捷的工具 我看了一下,您可以使用python中的beautiful soup之类的软件包手动执行此操作,或者使用import.io之类的付费服务在刮取发生时自动清理数据 但是有更好的工具可以从原始文本中剥离html吗?ruby和nokogiri gem(库)可能是一个很好的起点。你提到了python,但没有标记它,所以我想你没有设置pyt

我对从各种网站收集大量文本很感兴趣。结果将有很多html。有没有一种简单的方法可以去掉HTML,这样我就只剩下可以分析的字符串了

我不介意付钱,但我更喜欢免费快捷的工具

我看了一下,您可以使用python中的beautiful soup之类的软件包手动执行此操作,或者使用import.io之类的付费服务在刮取发生时自动清理数据

但是有更好的工具可以从原始文本中剥离html吗?

ruby和nokogiri gem(库)可能是一个很好的起点。你提到了python,但没有标记它,所以我想你没有设置python

在网站上爬行、跟踪链接和获取所有文本是相当简单的,nokogiri有一个.text方法可以做到这一点。在概率上,您希望对每个站点进行一点手工编码,以改进您得到的内容。我正在解析音乐列表站点,每个站点平均有20行左右的唯一代码

我应该提到的是,您应该首先查看是否存在某种类型的XLM/RSS提要,它们比web内容更容易处理。nokogiri可以帮你

我在我的项目中使用了从网站中提取文本,它使用起来很简单,而且 用于单击网站中的按钮以加载更多数据