Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/347.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 网页上的字数统计_Python_Nlp_Web Crawler_Beautifulsoup - Fatal编程技术网

Python 网页上的字数统计

Python 网页上的字数统计,python,nlp,web-crawler,beautifulsoup,Python,Nlp,Web Crawler,Beautifulsoup,我正在寻找一种方法来提取任意网站上单词的基本统计数据(总计数、密度、链接计数、HREF),最好是基于Python的解决方案 虽然使用BautifulSoup(例如BautifulSoup)解析特定网站并确定大部分内容的位置很容易,但需要在处理之前在DOM树中定义内容的位置。例如,这对于hrefs或任何仲裁标记来说都很容易,但在确定其余数据(未包含在定义良好的标记中)的位置时会变得更加复杂 如果我理解正确的话,谷歌(GoogleBot?)等公司使用的机器人能够从任何网站提取数据,以确定关键词密度。

我正在寻找一种方法来提取任意网站上单词的基本统计数据(总计数、密度、链接计数、HREF),最好是基于Python的解决方案

虽然使用BautifulSoup(例如BautifulSoup)解析特定网站并确定大部分内容的位置很容易,但需要在处理之前在DOM树中定义内容的位置。例如,这对于hrefs或任何仲裁标记来说都很容易,但在确定其余数据(未包含在定义良好的标记中)的位置时会变得更加复杂

如果我理解正确的话,谷歌(GoogleBot?)等公司使用的机器人能够从任何网站提取数据,以确定关键词密度。我的情况类似,获取与定义网站内容的词语相关的信息(即删除js、链接和填充词后)


我的问题是,是否有任何库或web API允许我从任何给定页面获取有意义单词的统计信息?

没有API,但可以将其用作工具的库可能很少

你应该数一数有意义的单词,并按时间记录下来

您也可以从以下内容开始:

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

有多个库处理更高级的web文章处理,这个问题应该是重复的。

谢谢你的回答,我很想知道哪些库适合这个目的。我会寻找它。。。但这里有一个关于VisualStudio中MS字数统计的示例,只是想了解一下。自从Summly开始流行以来,就有这么多这样的问题!