Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/319.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 本地存储网站的字频计数器_Python_Html - Fatal编程技术网

Python 本地存储网站的字频计数器

Python 本地存储网站的字频计数器,python,html,Python,Html,我有一个本地存储的半大型网站(使用httrack从服务器上删除)。此特定网站的目录结构包含多个文件夹/子文件夹以及大量html文件。我想知道是否有任何工具(它实际上可以是任何东西:脚本、c++/c代码等)允许我在所有html文件中生成一个单词频率计数器表。 这里的诀窍是,我只对计算实际内容单词感兴趣(即,不是html代码,尽管如果是这样的话,这些单词可以很容易地在以后删除)。 任何建议都将不胜感激 去掉html代码后,使用 如果您没有剥离html的方法,请研究如何剥离html 希望这有帮助一旦去

我有一个本地存储的半大型网站(使用httrack从服务器上删除)。此特定网站的目录结构包含多个文件夹/子文件夹以及大量html文件。我想知道是否有任何工具(它实际上可以是任何东西:脚本、c++/c代码等)允许我在所有html文件中生成一个单词频率计数器表。 这里的诀窍是,我只对计算实际内容单词感兴趣(即,不是html代码,尽管如果是这样的话,这些单词可以很容易地在以后删除)。
任何建议都将不胜感激

去掉html代码后,使用

如果您没有剥离html的方法,请研究如何剥离html


希望这有帮助

一旦去掉html代码,请使用

如果您没有剥离html的方法,请研究如何剥离html


希望这有助于

查看高级版的Hermitic Word Frequency Counter,它可以扫描多个文件并去除HTML标记。不是免费的,但在计算HTML文件中的单词方面做得很好。甚至子文件夹也是如此。

请参阅高级版的Hermitic Word Frequency Counter,它可以扫描多个文件并去除HTML标记。不是免费的,但在计算HTML文件中的单词方面做得很好。甚至子文件夹也是如此。

谢谢,我考虑的更多的是这个任务的现有工具,而不是我必须做所有的“脏活”:)虽然如果没有现有的工具来解决这个问题,我可能会继续尝试自己实现一个。@Everaldaguiar:这就是实现。安装
lxml
并从lxml导入html添加
;text=html.fromstring(doc).text\u content()
基本完成。如果您不想使用
lxml
,可以尝试将
lynx
转储为文本feature@inspectorG4dget还有卢卡斯·格拉夫。谢谢你的建议,我会尝试一下,这听起来是一个很好的方法。谢谢,我想更多的是用现有的工具来完成这项任务,而不是让我去做所有的“脏活”:)虽然如果没有现有的工具来解决这个问题,我可以自己去实现一个。@Everaldaguiar:这就是实现。安装
lxml
并从lxml导入html添加
;text=html.fromstring(doc).text\u content()
基本完成。如果您不想使用
lxml
,可以尝试将
lynx
转储为文本feature@inspectorG4dget还有卢卡斯·格拉夫。谢谢你的建议,我会试试看,这听起来是个不错的方法。
>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words