Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/lua/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在使用scrapy_splash软件包发布表单后重定向?_Python_Lua_Scrapy_Splash Screen_Scrapy Splash - Fatal编程技术网

Python 如何在使用scrapy_splash软件包发布表单后重定向?

Python 如何在使用scrapy_splash软件包发布表单后重定向?,python,lua,scrapy,splash-screen,scrapy-splash,Python,Lua,Scrapy,Splash Screen,Scrapy Splash,我正在使用Python、Scrapy、Splash和Scrapy_Splash包来废弃一个网站 我可以使用scrapy_splash中的SplashRequest对象登录。 登录创建一个cookie,允许我访问门户页面。到这一点,一切都是可行的 在门户页面上,有一个表单元素包装了许多按钮。单击后,将更新操作URL并触发表单提交。表单提交会导致302重定向 我对SplashRequest尝试了相同的方法,但是,我无法捕获重定向返回的SSO查询参数。我试图读取header Location参数,但没

我正在使用Python、Scrapy、Splash和Scrapy_Splash包来废弃一个网站

我可以使用scrapy_splash中的SplashRequest对象登录。 登录创建一个cookie,允许我访问门户页面。到这一点,一切都是可行的

在门户页面上,有一个表单元素包装了许多按钮。单击后,将更新操作URL并触发表单提交。表单提交会导致302重定向

我对SplashRequest尝试了相同的方法,但是,我无法捕获重定向返回的SSO查询参数。我试图读取header Location参数,但没有成功

我还尝试将lua脚本与SplashRequest对象结合使用,但是,我仍然无法访问重定向位置对象

任何指导都将不胜感激

我意识到还有其他解决方案(即selenium)可用,但上述技术是我们在大量其他脚本中使用的技术,我不太愿意为这个特定用例添加新技术

# Lua script to capture cookies and SSO query parameter from 302 Redirect
lua_script = """
    function main(splash)
        if splash.args.cookies then
            splash:init_cookies(splash.args.cookies)
        end
        assert(splash:go{
            splash.args.url,
            headers=splash.args.headers,
            http_method=splash.args.http_method,
            body=splash.args.body,
            formdata=splash.args.formdata
        })
        assert(splash:wait(0))

        local entries = splash:history()
        local last_response = entries[#entries].response

        return {
            url = splash:url(),
            headers = last_response.headers,
            http_status = last_response.status,
            cookies = splash:get_cookies(),
            html = splash:html(),
        }
    end
    """

def parse(self, response):
    yield SplashRequest(
    url='https://members.example.com/login',
    callback=self.portal_page,
    method='POST',
    endpoint='execute',
    args={
        'wait': 0.5,
        'lua_source': self.lua_script,
        'formdata': {
            'username': self.login, 
            'password': self.password
        },
    }
)

def portal_page(self, response):
    yield SplashRequest(
    url='https://data.example.com/portal'
    callback=self.data_download,
    args={
        'wait': 0.5,
        'lua_source': self.lua_script,
        'formdata': {}
    },
)

def data_download(self, response):
    print(response.body.decode('utf8')

我用一个工作示例更新了上面的问题

我改变了一些事情,但是我遇到的问题与缺少
splash:init_cookies(splash.args.cookies)
reference直接相关

我还将使用
SplashFormRequest
转换为
SplashRequest
,重构了
splash:go
块,并删除了对特定表单的引用


再次感谢@MikhailKorobov对您的帮助。

嘿,登录后您将获得cookies;scrapy splash应将其传递给scrapy(如果配置正确,即设置了所有必要的选项)。但是您的Lua脚本不会初始化cookies,因此在您的示例中,每个Splash请求都没有经过身份验证。你能先做些饼干吗?请看最后一个例子,非常感谢您的回复Mikhail。我的理解是,调用SplashFormRequest.from_响应方法并传入响应对象将初始化cookie和标头。我是否应该改为使用SplashRequest对象并在lua脚本中手动设置标头和Cookie?问题出在lua代码中:Cookie和标头被传递到lua脚本(SplashRequest/SplashFormRequest负责),但这些值不在该脚本中使用-例如,没有splash:init_cookes调用。检查我链接的示例-它有所有必要的部分来启用所有这些东西。谢谢@MikhailKorobovI,我现在可以获取和设置cookies了。还能够跟踪302重定向中的重定向和SSO查询参数。我在随后的帖子中仍然遇到一些问题,其中我遇到了无效会话的问题,但我相信这个具体问题已经解决。出于某种原因,我在你的脚本第5行遇到了一个
LUA\u错误
。。。但我认为这是正确的。你能再检查一下吗?我使用的是
Scrapy==1.4.0
Scrapy splash==0.7.2
@GianfrancoP。谢谢你的留言。我为splash.args.cookies分配更新了一个空检查代码来解决这个问题。您好,谢谢您的回复。问题似乎出在
go:{…}
函数周围的
assert()
上。由于某种原因,当您使用完整形式的函数时,断言不起作用。如果第一个参数为false或nil,Lua中的断言将抛出错误,否则它将自动失败。如果仅删除
splash:init_cookies(splash.args.cookies)
您是否收到任何错误?是的,那么您的问题可能在于splash实例。我有时遇到错误时需要重新启动docker实例。