Python 本地存储网站的字频计数器_Python_Html

Python 本地存储网站的字频计数器

python html

Python 本地存储网站的字频计数器,python,html,Python,Html,我有一个本地存储的半大型网站（使用httrack从服务器上删除）。此特定网站的目录结构包含多个文件夹/子文件夹以及大量html文件。我想知道是否有任何工具（它实际上可以是任何东西：脚本、c++/c代码等）允许我在所有html文件中生成一个单词频率计数器表。这里的诀窍是，我只对计算实际内容单词感兴趣（即，不是html代码，尽管如果是这样的话，这些单词可以很容易地在以后删除）。任何建议都将不胜感激去掉html代码后，使用如果您没有剥离html的方法，请研究如何剥离html 希望这有帮助一旦去

我有一个本地存储的半大型网站（使用httrack从服务器上删除）。此特定网站的目录结构包含多个文件夹/子文件夹以及大量html文件。我想知道是否有任何工具（它实际上可以是任何东西：脚本、c++/c代码等）允许我在所有html文件中生成一个单词频率计数器表。这里的诀窍是，我只对计算实际内容单词感兴趣（即，不是html代码，尽管如果是这样的话，这些单词可以很容易地在以后删除）。

任何建议都将不胜感激

去掉html代码后，使用

如果您没有剥离html的方法，请研究如何剥离html

希望这有帮助

一旦去掉html代码，请使用

如果您没有剥离html的方法，请研究如何剥离html

希望这有助于

查看高级版的Hermitic Word Frequency Counter，它可以扫描多个文件并去除HTML标记。不是免费的，但在计算HTML文件中的单词方面做得很好。甚至子文件夹也是如此。

请参阅高级版的Hermitic Word Frequency Counter，它可以扫描多个文件并去除HTML标记。不是免费的，但在计算HTML文件中的单词方面做得很好。甚至子文件夹也是如此。

谢谢，我考虑的更多的是这个任务的现有工具，而不是我必须做所有的“脏活”：）虽然如果没有现有的工具来解决这个问题，我可能会继续尝试自己实现一个。@Everaldaguiar:这就是实现。安装

lxml

并从lxml导入html添加

；text=html.fromstring（doc）.text\u content（）

基本完成。如果您不想使用

lxml

，可以尝试将

lynx

转储为文本feature@inspectorG4dget还有卢卡斯·格拉夫。谢谢你的建议，我会尝试一下，这听起来是一个很好的方法。谢谢，我想更多的是用现有的工具来完成这项任务，而不是让我去做所有的“脏活”：）虽然如果没有现有的工具来解决这个问题，我可以自己去实现一个。@Everaldaguiar:这就是实现。安装

lxml

并从lxml导入html添加

；text=html.fromstring（doc）.text\u content（）

基本完成。如果您不想使用

lxml

，可以尝试将

lynx

转储为文本feature@inspectorG4dget还有卢卡斯·格拉夫。谢谢你的建议，我会试试看，这听起来是个不错的方法。

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words