Python 网页上的字数统计
我正在寻找一种方法来提取任意网站上单词的基本统计数据(总计数、密度、链接计数、HREF),最好是基于Python的解决方案 虽然使用BautifulSoup(例如BautifulSoup)解析特定网站并确定大部分内容的位置很容易,但需要在处理之前在DOM树中定义内容的位置。例如,这对于hrefs或任何仲裁标记来说都很容易,但在确定其余数据(未包含在定义良好的标记中)的位置时会变得更加复杂 如果我理解正确的话,谷歌(GoogleBot?)等公司使用的机器人能够从任何网站提取数据,以确定关键词密度。我的情况类似,获取与定义网站内容的词语相关的信息(即删除js、链接和填充词后)Python 网页上的字数统计,python,nlp,web-crawler,beautifulsoup,Python,Nlp,Web Crawler,Beautifulsoup,我正在寻找一种方法来提取任意网站上单词的基本统计数据(总计数、密度、链接计数、HREF),最好是基于Python的解决方案 虽然使用BautifulSoup(例如BautifulSoup)解析特定网站并确定大部分内容的位置很容易,但需要在处理之前在DOM树中定义内容的位置。例如,这对于hrefs或任何仲裁标记来说都很容易,但在确定其余数据(未包含在定义良好的标记中)的位置时会变得更加复杂 如果我理解正确的话,谷歌(GoogleBot?)等公司使用的机器人能够从任何网站提取数据,以确定关键词密度。
我的问题是,是否有任何库或web API允许我从任何给定页面获取有意义单词的统计信息?没有API,但可以将其用作工具的库可能很少 你应该数一数有意义的单词,并按时间记录下来 您也可以从以下内容开始:
string Link= "http://www.website.com/news/Default.asp";
string itemToSearch= "Word";
int count = new Regex(itemToSearch).Matches(Link).Count;
MessageBox.Show(count.ToString());
有多个库处理更高级的web文章处理,这个问题应该是重复的。谢谢你的回答,我很想知道哪些库适合这个目的。我会寻找它。。。但这里有一个关于VisualStudio中MS字数统计的示例,只是想了解一下。自从Summly开始流行以来,就有这么多这样的问题!