Python 登录网站并抓取流媒体数据
我不是一个真正的程序员,但我问这个问题是出于一般的好奇心。我最近访问了一个网站,在那里我登录,进入一个页面,没有离开,页面上的数据在我眼前刷新 是否可以模仿浏览器(我使用的是Chrome)登录到该站点,导航到某个页面,并使用Python“刮取”即将到来的数据?我想存储和分析它 如果是这样的话,再向前迈出一步,是否有可能与网站互动?单击我知道其名称的按钮Python 登录网站并抓取流媒体数据,python,screen-scraping,Python,Screen Scraping,我不是一个真正的程序员,但我问这个问题是出于一般的好奇心。我最近访问了一个网站,在那里我登录,进入一个页面,没有离开,页面上的数据在我眼前刷新 是否可以模仿浏览器(我使用的是Chrome)登录到该站点,导航到某个页面,并使用Python“刮取”即将到来的数据?我想存储和分析它 如果是这样的话,再向前迈出一步,是否有可能与网站互动?单击我知道其名称的按钮 提前感谢。要在Python中模拟浏览器行为,可以使用该模块。您所指的“流”数据可以是flash或javascript。如果它是flash,它将是
提前感谢。要在Python中模拟浏览器行为,可以使用该模块。您所指的“流”数据可以是flash或javascript。如果它是flash,它将是二进制的,您将无法获取它。如果它是javascript,那么mehanize似乎在处理这一问题上再次发挥了作用 要在Python中模拟浏览器行为,可以使用模块。您所指的“流”数据可以是flash或javascript。如果它是flash,它将是二进制的,您将无法获取它。如果它是javascript,那么mehanize似乎在处理这一问题上再次发挥了作用 如果数据“在您眼前刷新”,则可能是AJAX(页面中的javascript从服务器提取新页面数据) 有两种方法可以做到这一点
两者都需要花费相当多的时间和精力来建立;Selenium更健壮,直接python查询更高效,YMMV。是的,这一切都可以使用python实现,如果您更具体一点,我们可以为您指出正确的方向,但您可能希望了解python模块pyquery以及urllib。如果数据是流式的,那么很可能网站正在发出ajax请求来刷新数据——您可以使用python或大多数其他语言发出相同的请求。一旦你开始刮,你会发现这是非常简单的。有很多教程可以让你开始学习:谢谢你的评论。我希望我能说得更具体一些,但我实际上不太会用Python编程(在R中完成我需要的大部分工作)。我只是好奇,我拥有的编码能力比我强得多的人是如何做到这一点的。是的,使用python这一切都是可能的,如果您更具体一点,我们可以为您指出正确的方向,但您可能希望先看一下python模块pyquery以及urllib。如果数据是流式的,那么很可能网站正在发出ajax请求来刷新数据——您可以使用python或大多数其他语言发出相同的请求。一旦你开始刮,你会发现这是非常简单的。有很多教程可以让你开始学习:谢谢你的评论。我希望我能说得更具体一些,但我实际上不太会用Python编程(在R中完成我需要的大部分工作)。我只是好奇,我拥有的编码能力比我强得多的人怎么会做这样的事情。