Web scraping web数据挖掘任务的编程语言比较 我需要一些比较不同的编程语言,如:C++、java、python、露比和PHP,用于Web数据挖掘相关的任务,开发Web爬虫、字符串操作等。我有一点PHP的经验,我认为它在这个特殊任务中的优势是简单的语法、深入的字符串解析功能、网络功能和可移植性,但是我不太了解其他语言,也不太了解它们在这个特定任务中的优缺点。

Web scraping web数据挖掘任务的编程语言比较 我需要一些比较不同的编程语言,如:C++、java、python、露比和PHP,用于Web数据挖掘相关的任务,开发Web爬虫、字符串操作等。我有一点PHP的经验,我认为它在这个特殊任务中的优势是简单的语法、深入的字符串解析功能、网络功能和可移植性,但是我不太了解其他语言,也不太了解它们在这个特定任务中的优缺点。,web-scraping,language-comparisons,Web Scraping,Language Comparisons,谷歌的第一个爬虫程序是用Python 1.5编写的 我不是其他语言的专家,但我会选择python和html5lib或Beautifulsoup。特定的语言与您的熟悉程度几乎没有关系。现在,所有的高级语言都将附带基础知识。除非你需要它是超快速的,否则你可能会受到下载速度的限制,而不是你解析HTML的速度或者其他没有列出的限制,语言不会有太大的影响 只要确保你使用了这些库。特别是一个HTML解析库,它可以很好地处理无效标记,而不是XML解析器和正则表达式(在适当的情况下)。正如前一篇文章所暗示的,熟

谷歌的第一个爬虫程序是用Python 1.5编写的


我不是其他语言的专家,但我会选择python和html5lib或Beautifulsoup。

特定的语言与您的熟悉程度几乎没有关系。现在,所有的高级语言都将附带基础知识。除非你需要它是超快速的,否则你可能会受到下载速度的限制,而不是你解析HTML的速度或者其他没有列出的限制,语言不会有太大的影响


只要确保你使用了这些库。特别是一个HTML解析库,它可以很好地处理无效标记,而不是XML解析器和正则表达式(在适当的情况下)。

正如前一篇文章所暗示的,熟悉会带来很大的不同。我还想说,看看这门语言最初设计的目的是什么——它提供了一个关于它最擅长的方面的好主意

PHP-专为服务器端脚本编写而设计,并不适合此用途

Perl——旨在将文本从良好的开端和优秀的库中分离出来——看看LWP和HTML下的模块,比如HTML::Treebuilder——这是一个不错的选择。无与伦比的插件模块选择

Python——一个不错的选择,看看beautifulsoup和urllib

Ruby——也是一个不错的选择,看看hpricot,从可用模块的角度看,它远没有Perl或Python成熟


我已经编写了相当多的WebSpider/数据挖掘软件,并且一直使用Perl。如果我今天从零开始,我可能会选择python。

不同的语言做什么?web上的数据挖掘是一项复杂的任务,不清楚您将要做什么。此外,这取决于你的知识和经验,你愿意学习多少,这是否需要专业素质,以及其他很多事情。我将你的问题重新标记为,而不是指分析,而不是数据提取。