Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 制作Safari阅读器风格的应用程序_Java_Html_Webpage_Interpreter - Fatal编程技术网

Java 制作Safari阅读器风格的应用程序

Java 制作Safari阅读器风格的应用程序,java,html,webpage,interpreter,Java,Html,Webpage,Interpreter,Safari的阅读器功能启发了我,它可以让你忽略网页上除了故事以外的所有内容(构成页面要点的所有文本、链接和图像,但没有任何标记、先行项或后续内容)。我想制作一个基于Java的轻量级“浏览器” 我的问题在于:我不知道如何准确地辨别主要内容。在检查了像和这样的读者识别的页面后,我意识到读者识别的实际文本不仅很难找到,而且不一致,并且被看似随机的标签分割。例如,新闻链接以开头,每个段落都在中,而小说链接以开头,每个段落都以开头,但不在自己的容器中 由于Safari支持这种“阅读器”界面,显然有一种方

Safari的阅读器功能启发了我,它可以让你忽略网页上除了故事以外的所有内容(构成页面要点的所有文本、链接和图像,但没有任何标记、先行项或后续内容)。我想制作一个基于Java的轻量级“浏览器”

我的问题在于:我不知道如何准确地辨别主要内容。在检查了像和这样的读者识别的页面后,我意识到读者识别的实际文本不仅很难找到,而且不一致,并且被看似随机的标签分割。例如,新闻链接以
开头,每个段落都在
中,而小说链接以
开头,每个段落都以

开头,但不在自己的容器中

由于Safari支持这种“阅读器”界面,显然有一种方法可以做到这一点,所以我不会问它是否存在。相反,我想知道:什么是一种好的、快速的、支持Java的算法,用于提取网页上故事的标题和正文,而不管页面本身是如何构造的?


在上下文方面,我已经创建了一个基本浏览器,以JEditorPane作为窗口,其EditorKit设置为HTMLEditorKit,并且正在使用
setPage(URL页面)
方法显示目标页面,但这可以根据我的需要进行更改。

如果您愿意使用服务,您应该查看或API;否则,您可以窥视到可读性的不足。您还可以在GitHub上找到Java和