Scrapy 刮擦:仅显示整页的文本(如人眼所见)

Scrapy 刮擦:仅显示整页的文本(如人眼所见),scrapy,Scrapy,如何在浏览器中突出显示整个页面,即不显示页面源代码,在记事本中复制/粘贴,即不显示超链接,只显示文本 我想要的是人类阅读的文本,而不是答案中的页面来源: 原因: 我将获得文本表示,以及页面url,并在elasticsearch中为其编制索引,使其成为站点搜索解决方案。我不希望在索引时出现凌乱的html/js代码。模块html2text可以在删除标记时将html转换为纯文本: import html2text converter = html2text.HTML2Text() bodyText

如何在浏览器中突出显示整个页面,即不显示页面源代码,在记事本中复制/粘贴,即不显示超链接,只显示文本

我想要的是人类阅读的文本,而不是答案中的页面来源:

原因:


我将获得文本表示,以及页面url,并在elasticsearch中为其编制索引,使其成为站点搜索解决方案。我不希望在索引时出现凌乱的html/js代码。

模块html2text可以在删除标记时将html转换为纯文本:

import html2text
converter = html2text.HTML2Text()
bodyText = converter.handle(response.text)

如果您还想获取呈现的文本,则需要像Splash这样的无头浏览器来首先呈现页面。

谢谢,这段代码片段解决了50%的问题。它去掉了js函数,但保留了其他链接/标记。我希望我能避免像splash这样会减速的重量级组件。非常感谢。
import html2text
converter = html2text.HTML2Text()
bodyText = converter.handle(response.text)