Python 如何解析HAR文件以提取文本内容?

Python 如何解析HAR文件以提取文本内容?,python,har,Python,Har,我将网络数据保存在一个har文件中。现在,我想提取包含特定单词的整个内容字典,作为将该字典保存到数组的指示符。har文件中有多个类似的dict包含该值,我想创建一个包含所有响应的数组 我对python(以及一般的编码)是相当陌生的,五种解释会对我有很大帮助。您可以使用模块。您可以使用pip轻松安装它,如下所示: pip install haralyzer 以下代码使用此示例: 导入json >>>从haralyzer进口HarParser,HarPage >>> >>>以open('sampl

我将网络数据保存在一个har文件中。现在,我想提取包含特定单词的整个内容字典,作为将该字典保存到数组的指示符。har文件中有多个类似的dict包含该值,我想创建一个包含所有响应的数组

我对python(以及一般的编码)是相当陌生的,五种解释会对我有很大帮助。

您可以使用模块。您可以使用
pip
轻松安装它,如下所示:

pip install haralyzer
以下代码使用此示例:

导入json >>>从haralyzer进口HarParser,HarPage >>> >>>以open('sample.har','r')作为f: ... har_parser=HarParser(json.loads(f.read())) >>> >>>data=har\u parser.har\u data >>>类型(数据) >>> >>>data.keys() dict_键(['version'、'creator'、'pages'、'entries']) >>> >>>har_parser.har_数据[“页面”] [{'startedDateTime':'2013-08-24T20:16:16.997Z','id':'page_1','title':'http://ericduran.github.io/chromeHAR/“,”页面计时“:{'onContentLoad':317,'onLoad':406}] 有关更多信息,请查看。

您可以使用模块。您可以使用
pip
轻松安装它,如下所示:

pip install haralyzer
以下代码使用此示例:

导入json >>>从haralyzer进口HarParser,HarPage >>> >>>以open('sample.har','r')作为f: ... har_parser=HarParser(json.loads(f.read())) >>> >>>data=har\u parser.har\u data >>>类型(数据) >>> >>>data.keys() dict_键(['version'、'creator'、'pages'、'entries']) >>> >>>har_parser.har_数据[“页面”] [{'startedDateTime':'2013-08-24T20:16:16.997Z','id':'page_1','title':'http://ericduran.github.io/chromeHAR/“,”页面计时“:{'onContentLoad':317,'onLoad':406}]
有关更多信息,请查看。

附加到Anwarvic的答案,HAR文件中具有基于文本的内容类型的条目包含键
entry->response->content->text中的实际内容。下面是一个打印所有这些条目内容的示例

.... initialize har parser as per documentation ....

for page in har_parser.pages:
    for entry in page.entries:
        # Need to be careful accessing the text property, it will not exist for non text-based responses.
        print(entry['response']['content'].get('text', ''))

从那里,您可以使用
中的
或正则表达式来查看条目的响应文本是否与您要查找的文本匹配。

根据Anwarvic的答案,HAR文件中具有基于文本的内容类型的条目包含键
条目->响应->内容->文本中的实际内容。下面是一个打印所有这些条目内容的示例

.... initialize har parser as per documentation ....

for page in har_parser.pages:
    for entry in page.entries:
        # Need to be careful accessing the text property, it will not exist for non text-based responses.
        print(entry['response']['content'].get('text', ''))

在那里,您可以使用
中的
或正则表达式来查看条目的响应文本是否与您要查找的文本匹配。

看起来可能很合适。它可以解析和分析har文件。看起来很合身。它可以解析和分析har文件。我如何访问包含单词的特定响应(网站向用户显示的文本)?har文件大约有200 mb。为了澄清这些数据,请参见现场表格。因此,har文件中有多个dict形式的表状数据。您可以提供此har文件吗?我如何提供har?它包含大量数据,我不确定我是否可以共享。然后,你可以使用我的代码作为起点。如果你发现有任何问题,我很乐意帮助你。我已经创建了一个较小的har,并尽可能地进行了更改,以使其正常。我如何将其发送给你?我如何访问特定的响应(网站向用户显示的文本)那包含一个词吗?har文件大约有200 mb。为了澄清这些数据,请参见现场表格。因此,har文件中有多个dict形式的表状数据。您可以提供此har文件吗?我如何提供har?它包含大量数据,我不确定我是否可以共享。然后,你可以使用我的代码作为起点,如果你发现有任何问题,我很乐意帮助你。我已经创建了一个较小的har,并尽可能地进行了更改,以使其正常。我如何将其发送给你?