Python 本地存储网站的字频计数器
我有一个本地存储的半大型网站(使用httrack从服务器上删除)。此特定网站的目录结构包含多个文件夹/子文件夹以及大量html文件。我想知道是否有任何工具(它实际上可以是任何东西:脚本、c++/c代码等)允许我在所有html文件中生成一个单词频率计数器表。 这里的诀窍是,我只对计算实际内容单词感兴趣(即,不是html代码,尽管如果是这样的话,这些单词可以很容易地在以后删除)。Python 本地存储网站的字频计数器,python,html,Python,Html,我有一个本地存储的半大型网站(使用httrack从服务器上删除)。此特定网站的目录结构包含多个文件夹/子文件夹以及大量html文件。我想知道是否有任何工具(它实际上可以是任何东西:脚本、c++/c代码等)允许我在所有html文件中生成一个单词频率计数器表。 这里的诀窍是,我只对计算实际内容单词感兴趣(即,不是html代码,尽管如果是这样的话,这些单词可以很容易地在以后删除)。 任何建议都将不胜感激 去掉html代码后,使用 如果您没有剥离html的方法,请研究如何剥离html 希望这有帮助一旦去
任何建议都将不胜感激 去掉html代码后,使用 如果您没有剥离html的方法,请研究如何剥离html
希望这有帮助一旦去掉html代码,请使用 如果您没有剥离html的方法,请研究如何剥离html
希望这有助于查看高级版的Hermitic Word Frequency Counter,它可以扫描多个文件并去除HTML标记。不是免费的,但在计算HTML文件中的单词方面做得很好。甚至子文件夹也是如此。请参阅高级版的Hermitic Word Frequency Counter,它可以扫描多个文件并去除HTML标记。不是免费的,但在计算HTML文件中的单词方面做得很好。甚至子文件夹也是如此。谢谢,我考虑的更多的是这个任务的现有工具,而不是我必须做所有的“脏活”:)虽然如果没有现有的工具来解决这个问题,我可能会继续尝试自己实现一个。@Everaldaguiar:这就是实现。安装
lxml
并从lxml导入html添加;text=html.fromstring(doc).text\u content()
基本完成。如果您不想使用lxml
,可以尝试将lynx
转储为文本feature@inspectorG4dget还有卢卡斯·格拉夫。谢谢你的建议,我会尝试一下,这听起来是一个很好的方法。谢谢,我想更多的是用现有的工具来完成这项任务,而不是让我去做所有的“脏活”:)虽然如果没有现有的工具来解决这个问题,我可以自己去实现一个。@Everaldaguiar:这就是实现。安装lxml
并从lxml导入html添加;text=html.fromstring(doc).text\u content()
基本完成。如果您不想使用lxml
,可以尝试将lynx
转储为文本feature@inspectorG4dget还有卢卡斯·格拉夫。谢谢你的建议,我会试试看,这听起来是个不错的方法。
>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words