Python 网页上的字数统计_Python_Nlp_Web Crawler_Beautifulsoup

Python 网页上的字数统计

python nlp web-crawler

Python 网页上的字数统计,python,nlp,web-crawler,beautifulsoup,Python,Nlp,Web Crawler,Beautifulsoup,我正在寻找一种方法来提取任意网站上单词的基本统计数据（总计数、密度、链接计数、HREF），最好是基于Python的解决方案虽然使用BautifulSoup（例如BautifulSoup）解析特定网站并确定大部分内容的位置很容易，但需要在处理之前在DOM树中定义内容的位置。例如，这对于hrefs或任何仲裁标记来说都很容易，但在确定其余数据（未包含在定义良好的标记中）的位置时会变得更加复杂如果我理解正确的话，谷歌（GoogleBot？）等公司使用的机器人能够从任何网站提取数据，以确定关键词密度。

我正在寻找一种方法来提取任意网站上单词的基本统计数据（总计数、密度、链接计数、HREF），最好是基于Python的解决方案

虽然使用BautifulSoup（例如BautifulSoup）解析特定网站并确定大部分内容的位置很容易，但需要在处理之前在DOM树中定义内容的位置。例如，这对于hrefs或任何仲裁标记来说都很容易，但在确定其余数据（未包含在定义良好的标记中）的位置时会变得更加复杂

如果我理解正确的话，谷歌（GoogleBot？）等公司使用的机器人能够从任何网站提取数据，以确定关键词密度。我的情况类似，获取与定义网站内容的词语相关的信息（即删除js、链接和填充词后）

我的问题是，是否有任何库或web API允许我从任何给定页面获取有意义单词的统计信息？

没有API，但可以将其用作工具的库可能很少

你应该数一数有意义的单词，并按时间记录下来

您也可以从以下内容开始：

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

有多个库处理更高级的web文章处理，这个问题应该是重复的。

谢谢你的回答，我很想知道哪些库适合这个目的。我会寻找它。。。但这里有一个关于VisualStudio中MS字数统计的示例，只是想了解一下。自从Summly开始流行以来，就有这么多这样的问题！