Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/302.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy可以用作实时包装器吗?_Python_Screen Scraping_Wrapper_Scrapy_Word Wrap - Fatal编程技术网

Python Scrapy可以用作实时包装器吗?

Python Scrapy可以用作实时包装器吗?,python,screen-scraping,wrapper,scrapy,word-wrap,Python,Screen Scraping,Wrapper,Scrapy,Word Wrap,我希望有人能够提供一些关于利用scrapy python框架创建实时包装器的可行性的见解 为了澄清我在这方面对“包装器”一词的定义,让我描述一下我的情况。。。我希望使用scrapy来编写一个解决方案,允许用户在一个网站上执行搜索查询,该查询将实时调用scrapy spider,并告知该spider: 登录到第三方写入 执行用户搜索查询 通过指定唯一的结果集容器类和/或xpath提取结果html内容,仅检索返回查询的实际html结果 修改提取的html结果(通过重整html和/或注入新的页眉/页脚

我希望有人能够提供一些关于利用scrapy python框架创建实时包装器的可行性的见解

为了澄清我在这方面对“包装器”一词的定义,让我描述一下我的情况。。。我希望使用scrapy来编写一个解决方案,允许用户在一个网站上执行搜索查询,该查询将实时调用scrapy spider,并告知该spider:

  • 登录到第三方写入
  • 执行用户搜索查询
  • 通过指定唯一的结果集容器类和/或xpath提取结果html内容,仅检索返回查询的实际html结果
  • 修改提取的html结果(通过重整html和/或注入新的页眉/页脚或css元素)。5) 最后,实时返回修改后的html结果,这样html就可以直接注入到原始域中,这一切对用户来说都是透明的
  • 我应该指出,我熟悉为大规模批量爬行编写scrapy spider,但我不太熟悉能够使用它构建实时类型的“包装器”的前景或可行性


    如果有人有任何见解、建议或例子能说明类似情况,我将不胜感激。CH

    您可以在上尝试python的HTQL浏览器界面。Bing实时搜索的一个例子是:

    import htql;
    a=htql.Browser(); 
    b=a.goUrl("http://www.bing.com/");
    c=a.goForm("<form>1", {"q":"test"});
    for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
        print(d);
    
    e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");
    

    更多详细信息可以从本手册中找到,或者请访问

    ,谢谢您提供的信息,但您能否指出一些类型的示例链接,根据我的具体情况进一步讨论此方法?
    a=htql.Browser(2);