Web scraping 哪种最简单的方法可以从抓取的web数据中剥离HTML，从而只剩下字符串？_Web Scraping_Nlp_Data Cleaning

Web scraping 哪种最简单的方法可以从抓取的web数据中剥离HTML，从而只剩下字符串？

web-scraping nlp

Web scraping 哪种最简单的方法可以从抓取的web数据中剥离HTML，从而只剩下字符串？,web-scraping,nlp,data-cleaning,Web Scraping,Nlp,Data Cleaning,我对从各种网站收集大量文本很感兴趣。结果将有很多html。有没有一种简单的方法可以去掉HTML，这样我就只剩下可以分析的字符串了我不介意付钱，但我更喜欢免费快捷的工具我看了一下，您可以使用python中的beautiful soup之类的软件包手动执行此操作，或者使用import.io之类的付费服务在刮取发生时自动清理数据但是有更好的工具可以从原始文本中剥离html吗？ruby和nokogiri gem（库）可能是一个很好的起点。你提到了python，但没有标记它，所以我想你没有设置pyt

我对从各种网站收集大量文本很感兴趣。结果将有很多html。有没有一种简单的方法可以去掉HTML，这样我就只剩下可以分析的字符串了

我不介意付钱，但我更喜欢免费快捷的工具

我看了一下，您可以使用python中的beautiful soup之类的软件包手动执行此操作，或者使用import.io之类的付费服务在刮取发生时自动清理数据

但是有更好的工具可以从原始文本中剥离html吗？

ruby和nokogiri gem（库）可能是一个很好的起点。你提到了python，但没有标记它，所以我想你没有设置python

在网站上爬行、跟踪链接和获取所有文本是相当简单的，nokogiri有一个.text方法可以做到这一点。在概率上，您希望对每个站点进行一点手工编码，以改进您得到的内容。我正在解析音乐列表站点，每个站点平均有20行左右的唯一代码

我应该提到的是，您应该首先查看是否存在某种类型的XLM/RSS提要，它们比web内容更容易处理。nokogiri可以帮你

我在我的项目中使用了从网站中提取文本，它使用起来很简单，而且用于单击网站中的按钮以加载更多数据