如何使用javascript处理大型html文本页面?

如何使用javascript处理大型html文本页面?,javascript,html,google-chrome-extension,Javascript,Html,Google Chrome Extension,我有一个巨大的(大约20mB)html页面,它只不过是纯文本。它是服务器上运行的某些代码的日志文件。现在,我正在尝试编写一个chrome插件,当有人打开这个页面时,它会自动解析这个页面,并根据我在某些地方的需要添加适当的链接 页面看起来像这样 <html><head></head><body><pre> 20mB of pure text </pre></body></html> 20mB纯文本

我有一个巨大的(大约20mB)html页面,它只不过是纯文本。它是服务器上运行的某些代码的日志文件。现在,我正在尝试编写一个chrome插件,当有人打开这个页面时,它会自动解析这个页面,并根据我在某些地方的需要添加适当的链接

页面看起来像这样

<html><head></head><body><pre> 20mB of pure text </pre></body></html>
20mB纯文本
所以,两个问题,第二个取决于第一个,这对我有帮助。 (到目前为止,我一直在使用纯javascript。还没有库。)

1) 如何解析页面?
2) 在前3-4行中有一些信息。如何轻松地获取前几行并从中获取数据(如果解析整个页面并不容易)?

您试图解析页面的目的是什么,是否创建摘要

对于初学者,您可以通过向pre标记添加id并执行以下操作来获得前4行:

var first4Lines=document.getElementById(“theIdTagOfThePre”).innerHTML.split(“\n”,4)

如果这样做不正确,您必须将“\n”切换为“\r\n”。

如何解析页面将取决于数据的结构。您需要找到一个允许遍历xml的javascript库。然后你可以很容易地从pre标签中获取文本。正如我所说,pre标签中有20mB的纯文本。日志文件的转储。我们需要知道日志文件的格式以帮助您分析它。解析意味着使用数据结构的知识将其转换为其中包含的数据。您要向我们解释的是XML、JSON还是其他格式?页面本质上是一个日志文件。我将在每行20mb的文本上添加适当的html链接。