如何通过Python Scrapy抓取drupal网站?

如何通过Python Scrapy抓取drupal网站?,python,filter,drupal,scrapy,Python,Filter,Drupal,Scrapy,我有一个Drupal网站(无法显示),上面有一个html表。我需要从这张桌子上划出几行 默认情况下,表格视图不适合爬网: 表中只显示了15行,要查看接下来的15行,需要单击 “下一步”按钮 没有“国家”栏,它在单独的 划船 这两个问题通过过滤器解决: 我需要更改每页“所有”行上的“15” 取消选中复选框,将显示“国家”列 从此,桌子就可以吱吱作响了 我注意到,当我按下“下一步”按钮或在F12->Network中更改表选项时,我看到一个大主体的ajax POST请求。存在负责“每页行数”和“国家/

我有一个Drupal网站(无法显示),上面有一个html表。我需要从这张桌子上划出几行

默认情况下,表格视图不适合爬网:

  • 表中只显示了15行,要查看接下来的15行,需要单击 “下一步”按钮
  • 没有“国家”栏,它在单独的 划船
  • 这两个问题通过过滤器解决:

  • 我需要更改每页“所有”行上的“15”
  • 取消选中复选框,将显示“国家”列
  • 从此,桌子就可以吱吱作响了

    我注意到,当我按下“下一步”按钮或在F12->Network中更改表选项时,我看到一个大主体的ajax POST请求。存在负责“每页行数”和“国家/地区”列的数据。我试着用我的数据写一篇关于身体的帖子。我只收到“坏请求”的回复。此后,我看到,在身体里是负责盐的数据。 我在html中找到这个salt,并从html中动态获取它。 现在我发出POST请求,得到回复200,但是这个页面是错误的

    问题: 如何在“准备爬网”模式下通过Scrapy获取页面?如何从代码中与过滤器交互


    我明白我对情况的解释是非常抽象的,但我很乐意提供所有的想法和解决方案!提前多谢

    也许您应该使用它来控制可以运行JavaScrip和Ajax的web浏览器。Selenium也可以单击页面上的元素。@furas,非常感谢。我发现它使用了其他过滤器设置。表很可能是由某个视图生成的,所以请尝试查找并编辑它。在这里,您可以微调要显示的行数、要显示的字段等。也许您应该使用它来控制可以运行JavaScrip和Ajax的web浏览器。Selenium也可以单击页面上的元素。@furas,非常感谢。我发现它使用了其他过滤器设置。表很可能是由某个视图生成的,所以请尝试查找并编辑它。在那里,您可以微调要显示的行数、要显示的字段等。