Python 如何解析HAR文件以提取文本内容?
我将网络数据保存在一个har文件中。现在,我想提取包含特定单词的整个内容字典,作为将该字典保存到数组的指示符。har文件中有多个类似的dict包含该值,我想创建一个包含所有响应的数组 我对python(以及一般的编码)是相当陌生的,五种解释会对我有很大帮助。您可以使用模块。您可以使用Python 如何解析HAR文件以提取文本内容?,python,har,Python,Har,我将网络数据保存在一个har文件中。现在,我想提取包含特定单词的整个内容字典,作为将该字典保存到数组的指示符。har文件中有多个类似的dict包含该值,我想创建一个包含所有响应的数组 我对python(以及一般的编码)是相当陌生的,五种解释会对我有很大帮助。您可以使用模块。您可以使用pip轻松安装它,如下所示: pip install haralyzer 以下代码使用此示例: 导入json >>>从haralyzer进口HarParser,HarPage >>> >>>以open('sampl
pip
轻松安装它,如下所示:
pip install haralyzer
以下代码使用此示例:
导入json
>>>从haralyzer进口HarParser,HarPage
>>>
>>>以open('sample.har','r')作为f:
... har_parser=HarParser(json.loads(f.read()))
>>>
>>>data=har\u parser.har\u data
>>>类型(数据)
>>>
>>>data.keys()
dict_键(['version'、'creator'、'pages'、'entries'])
>>>
>>>har_parser.har_数据[“页面”]
[{'startedDateTime':'2013-08-24T20:16:16.997Z','id':'page_1','title':'http://ericduran.github.io/chromeHAR/“,”页面计时“:{'onContentLoad':317,'onLoad':406}]
有关更多信息,请查看。您可以使用模块。您可以使用pip
轻松安装它,如下所示:
pip install haralyzer
以下代码使用此示例:
导入json
>>>从haralyzer进口HarParser,HarPage
>>>
>>>以open('sample.har','r')作为f:
... har_parser=HarParser(json.loads(f.read()))
>>>
>>>data=har\u parser.har\u data
>>>类型(数据)
>>>
>>>data.keys()
dict_键(['version'、'creator'、'pages'、'entries'])
>>>
>>>har_parser.har_数据[“页面”]
[{'startedDateTime':'2013-08-24T20:16:16.997Z','id':'page_1','title':'http://ericduran.github.io/chromeHAR/“,”页面计时“:{'onContentLoad':317,'onLoad':406}]
有关更多信息,请查看。附加到Anwarvic的答案,HAR文件中具有基于文本的内容类型的条目包含键
entry->response->content->text中的实际内容。下面是一个打印所有这些条目内容的示例
.... initialize har parser as per documentation ....
for page in har_parser.pages:
for entry in page.entries:
# Need to be careful accessing the text property, it will not exist for non text-based responses.
print(entry['response']['content'].get('text', ''))
从那里,您可以使用中的或正则表达式来查看条目的响应文本是否与您要查找的文本匹配。根据Anwarvic的答案,HAR文件中具有基于文本的内容类型的条目包含键条目->响应->内容->文本中的实际内容。下面是一个打印所有这些条目内容的示例
.... initialize har parser as per documentation ....
for page in har_parser.pages:
for entry in page.entries:
# Need to be careful accessing the text property, it will not exist for non text-based responses.
print(entry['response']['content'].get('text', ''))
在那里,您可以使用
中的或正则表达式来查看条目的响应文本是否与您要查找的文本匹配。看起来可能很合适。它可以解析和分析har文件。看起来很合身。它可以解析和分析har文件。我如何访问包含单词的特定响应(网站向用户显示的文本)?har文件大约有200 mb。为了澄清这些数据,请参见现场表格。因此,har文件中有多个dict形式的表状数据。您可以提供此har文件吗?我如何提供har?它包含大量数据,我不确定我是否可以共享。然后,你可以使用我的代码作为起点。如果你发现有任何问题,我很乐意帮助你。我已经创建了一个较小的har,并尽可能地进行了更改,以使其正常。我如何将其发送给你?我如何访问特定的响应(网站向用户显示的文本)那包含一个词吗?har文件大约有200 mb。为了澄清这些数据,请参见现场表格。因此,har文件中有多个dict形式的表状数据。您可以提供此har文件吗?我如何提供har?它包含大量数据,我不确定我是否可以共享。然后,你可以使用我的代码作为起点,如果你发现有任何问题,我很乐意帮助你。我已经创建了一个较小的har,并尽可能地进行了更改,以使其正常。我如何将其发送给你?