Python:从网站获取数据项

Python:从网站获取数据项,python,lxml,Python,Lxml,我正在使用lxml和python,并在整个站点中使用它。我想谈谈我在同一个问题中遇到的两个问题 首先,我想从Y中提取文本X。人们发现这篇评论很有帮助,在每一篇评论下面 其次,我想让href指向谷歌的下一步按钮 任何帮助都将不胜感激 不要试图刮掉这一页。使用。我看不到“下一步”按钮,但在计算每个复习部分有多少颗星时,只需让您的程序计算出现的次数。其中一个表示一颗星,五个表示五颗星 另一方面,谷歌有非常先进的防刮工具设置。当您替换它们时,系统将提示您输入字母/数字,以确保您是人类。您不使用Beaut

我正在使用lxml和python,并在整个站点中使用它。我想谈谈我在同一个问题中遇到的两个问题

  • 首先,我想从Y中提取文本X。人们发现这篇评论很有帮助,在每一篇评论下面
  • 其次,我想让href指向谷歌的下一步按钮

  • 任何帮助都将不胜感激

    不要试图刮掉这一页。使用。

    我看不到“下一步”按钮,但在计算每个复习部分有多少颗星时,只需让您的程序计算出现的次数。其中一个表示一颗星,五个表示五颗星


    另一方面,谷歌有非常先进的防刮工具设置。当您替换它们时,系统将提示您输入字母/数字,以确保您是人类。

    您不使用
    BeautifulSoup
    的原因是什么
    lxml
    是一个复杂度过高的问题。我听到了相反的说法,尽管这是客户的要求,所以不能说太多:你尝试了什么?你能给我们看一些相关的代码吗?你为什么想要这个(还有其他的方法吗?)有没有一个官方的谷歌API可以让你不用刮取就可以访问这些信息?lxml的运行速度比BeautifulSoup快得多。我觉得这就像是过早的优化。除非你坐在一个非常非常胖的互联网连接的末端,否则Python脚本处理数据的速度将远远快于你通过互联网连接获取数据的速度,在问题中,我指的是每篇评论下面的文字,Y中有X的人认为这篇评论很有帮助,而“下一步”按钮位于谷歌会标下方。出于某种原因,我无法在你链接的页面上看到谷歌会标。但如果你使用chrome浏览器,只需右键点击你想要捕获的区域并选择“inspect”,你就会看到页面的一部分,其中提到了你想要的内容。如果你使用firefox,那么就使用firebug插件。不要听起来像一张破唱片,但我必须同意李昂业和丹尼尔·罗斯曼的回答。不刮这个可以省下很多工作。这不仅仅是从谷歌的角度(更少的资源),也是你的,因为他们一直试图阻止人们这样做,很可能你的代码会在一段时间后中断,但使用API,他们会通知你任何更改,并优雅地这样做。即使是客户的要求,您也有义务告诉他们,让他们知道这是注定的,并制定一个更强健、更清洁的解决方案。相信我,他们会尊重你的。客户要求!请坚持这个问题:)客户要求见鬼去吧。API的存在使程序员更容易获取数据,而无需执行刮取。同时,API的存在也为谷歌节省了提供整个网页的成本,只为提供你想要的几条信息。