Web scraping 如何从HTML页面提取文本,并将其替换为同一HTML页面上的摘要?

Web scraping 如何从HTML页面提取文本,并将其替换为同一HTML页面上的摘要?,web-scraping,summarization,Web Scraping,Summarization,如何从HTML页面提取文本,并将其替换为同一HTML页面上的摘要?我已经准备好了摘要技术,但是我找不到一种刮削和替换的方法 正如我看到的,每个网页都是不同的 我想我需要有一种方法来标记和标识HTML文件中提取文本的每个位置,以便以后我可以用它的摘要替换该位置。是的 您需要记住在哪里找到的文本来替换它 当然,您也可以第二次搜索文本,但这并不容易。您可以通过打开URL连接、阅读网页、对其进行解析以找到您要查找的文本,然后。。。好。。。将其替换为摘要。“…以便稍后我可以替换该点…”-为什么以后需要这样

如何从HTML页面提取文本,并将其替换为同一HTML页面上的摘要?我已经准备好了摘要技术,但是我找不到一种刮削和替换的方法

正如我看到的,每个网页都是不同的

我想我需要有一种方法来标记和标识HTML文件中提取文本的每个位置,以便以后我可以用它的摘要替换该位置。

是的

您需要记住在哪里找到的文本来替换它


当然,您也可以第二次搜索文本,但这并不容易。

您可以通过打开URL连接、阅读网页、对其进行解析以找到您要查找的文本,然后。。。好。。。将其替换为摘要。“…以便稍后我可以替换该点…”-为什么以后需要这样做?我需要稍后使用摘要替换该点,但解析在这里很棘手。我知道如何提取文本,但如何识别文本的位置?