Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/316.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 登录网站并抓取流媒体数据_Python_Screen Scraping - Fatal编程技术网

Python 登录网站并抓取流媒体数据

Python 登录网站并抓取流媒体数据,python,screen-scraping,Python,Screen Scraping,我不是一个真正的程序员,但我问这个问题是出于一般的好奇心。我最近访问了一个网站,在那里我登录,进入一个页面,没有离开,页面上的数据在我眼前刷新 是否可以模仿浏览器(我使用的是Chrome)登录到该站点,导航到某个页面,并使用Python“刮取”即将到来的数据?我想存储和分析它 如果是这样的话,再向前迈出一步,是否有可能与网站互动?单击我知道其名称的按钮 提前感谢。要在Python中模拟浏览器行为,可以使用该模块。您所指的“流”数据可以是flash或javascript。如果它是flash,它将是

我不是一个真正的程序员,但我问这个问题是出于一般的好奇心。我最近访问了一个网站,在那里我登录,进入一个页面,没有离开,页面上的数据在我眼前刷新

是否可以模仿浏览器(我使用的是Chrome)登录到该站点,导航到某个页面,并使用Python“刮取”即将到来的数据?我想存储和分析它

如果是这样的话,再向前迈出一步,是否有可能与网站互动?单击我知道其名称的按钮


提前感谢。

要在Python中模拟浏览器行为,可以使用该模块。您所指的“流”数据可以是flash或javascript。如果它是flash,它将是二进制的,您将无法获取它。如果它是javascript,那么mehanize似乎在处理这一问题上再次发挥了作用

要在Python中模拟浏览器行为,可以使用模块。您所指的“流”数据可以是flash或javascript。如果它是flash,它将是二进制的,您将无法获取它。如果它是javascript,那么mehanize似乎在处理这一问题上再次发挥了作用

如果数据“在您眼前刷新”,则可能是AJAX(页面中的javascript从服务器提取新页面数据)

有两种方法可以做到这一点

  • 使用Selenium,您可以包装一个实际的浏览器,该浏览器将加载页面,运行javascript,然后您可以从活动页面中获取页面位

  • 您可以查看页面中的AJAX正在做什么(它如何请求更新,它得到了什么),然后编写python代码来模拟它

  • 两者都需要花费相当多的时间和精力来建立;Selenium更健壮,直接python查询更高效,YMMV。

    如果数据“在您眼前刷新”,则可能是AJAX(页面中的javascript从服务器提取新页面数据)

    有两种方法可以做到这一点

  • 使用Selenium,您可以包装一个实际的浏览器,该浏览器将加载页面,运行javascript,然后您可以从活动页面中获取页面位

  • 您可以查看页面中的AJAX正在做什么(它如何请求更新,它得到了什么),然后编写python代码来模拟它


  • 两者都需要花费相当多的时间和精力来建立;Selenium更健壮,直接python查询更高效,YMMV。

    是的,这一切都可以使用python实现,如果您更具体一点,我们可以为您指出正确的方向,但您可能希望了解python模块pyquery以及urllib。如果数据是流式的,那么很可能网站正在发出ajax请求来刷新数据——您可以使用python或大多数其他语言发出相同的请求。一旦你开始刮,你会发现这是非常简单的。有很多教程可以让你开始学习:谢谢你的评论。我希望我能说得更具体一些,但我实际上不太会用Python编程(在R中完成我需要的大部分工作)。我只是好奇,我拥有的编码能力比我强得多的人是如何做到这一点的。是的,使用python这一切都是可能的,如果您更具体一点,我们可以为您指出正确的方向,但您可能希望先看一下python模块pyquery以及urllib。如果数据是流式的,那么很可能网站正在发出ajax请求来刷新数据——您可以使用python或大多数其他语言发出相同的请求。一旦你开始刮,你会发现这是非常简单的。有很多教程可以让你开始学习:谢谢你的评论。我希望我能说得更具体一些,但我实际上不太会用Python编程(在R中完成我需要的大部分工作)。我只是好奇,我拥有的编码能力比我强得多的人怎么会做这样的事情。