Scrapy 刮擦:仅显示整页的文本(如人眼所见)
如何在浏览器中突出显示整个页面,即不显示页面源代码,在记事本中复制/粘贴,即不显示超链接,只显示文本 我想要的是人类阅读的文本,而不是答案中的页面来源: 原因:Scrapy 刮擦:仅显示整页的文本(如人眼所见),scrapy,Scrapy,如何在浏览器中突出显示整个页面,即不显示页面源代码,在记事本中复制/粘贴,即不显示超链接,只显示文本 我想要的是人类阅读的文本,而不是答案中的页面来源: 原因: 我将获得文本表示,以及页面url,并在elasticsearch中为其编制索引,使其成为站点搜索解决方案。我不希望在索引时出现凌乱的html/js代码。模块html2text可以在删除标记时将html转换为纯文本: import html2text converter = html2text.HTML2Text() bodyText
我将获得文本表示,以及页面url,并在elasticsearch中为其编制索引,使其成为站点搜索解决方案。我不希望在索引时出现凌乱的html/js代码。模块html2text可以在删除标记时将html转换为纯文本:
import html2text
converter = html2text.HTML2Text()
bodyText = converter.handle(response.text)
如果您还想获取呈现的文本,则需要像Splash这样的无头浏览器来首先呈现页面。谢谢,这段代码片段解决了50%的问题。它去掉了js函数,但保留了其他链接/标记。我希望我能避免像splash这样会减速的重量级组件。非常感谢。
import html2text
converter = html2text.HTML2Text()
bodyText = converter.handle(response.text)