Java 制作Safari阅读器风格的应用程序_Java_Html_Webpage_Interpreter

Java 制作Safari阅读器风格的应用程序

java html

Java 制作Safari阅读器风格的应用程序,java,html,webpage,interpreter,Java,Html,Webpage,Interpreter,Safari的阅读器功能启发了我，它可以让你忽略网页上除了故事以外的所有内容（构成页面要点的所有文本、链接和图像，但没有任何标记、先行项或后续内容）。我想制作一个基于Java的轻量级“浏览器” 我的问题在于：我不知道如何准确地辨别主要内容。在检查了像和这样的读者识别的页面后，我意识到读者识别的实际文本不仅很难找到，而且不一致，并且被看似随机的标签分割。例如，新闻链接以开头，每个段落都在中，而小说链接以开头，每个段落都以开头，但不在自己的容器中由于Safari支持这种“阅读器”界面，显然有一种方

Safari的阅读器功能启发了我，它可以让你忽略网页上除了故事以外的所有内容（构成页面要点的所有文本、链接和图像，但没有任何标记、先行项或后续内容）。我想制作一个基于Java的轻量级“浏览器”

我的问题在于：我不知道如何准确地辨别主要内容。在检查了像和这样的读者识别的页面后，我意识到读者识别的实际文本不仅很难找到，而且不一致，并且被看似随机的标签分割。例如，新闻链接以

开头，每个段落都在

中，而小说链接以

开头，每个段落都以

开头，但不在自己的容器中

由于Safari支持这种“阅读器”界面，显然有一种方法可以做到这一点，所以我不会问它是否存在。相反，我想知道：什么是一种好的、快速的、支持Java的算法，用于提取网页上故事的标题和正文，而不管页面本身是如何构造的？

在上下文方面，我已经创建了一个基本浏览器，以JEditorPane作为窗口，其EditorKit设置为HTMLEditorKit，并且正在使用

setPage（URL页面）

方法显示目标页面，但这可以根据我的需要进行更改。

如果您愿意使用服务，您应该查看或API；否则，您可以窥视到可读性的不足。您还可以在GitHub上找到Java和