棘手的python问题_Python_Selenium_Scrapy_Web Crawler

棘手的python问题

python selenium scrapy web-crawler

棘手的python问题,python,selenium,scrapy,web-crawler,Python,Selenium,Scrapy,Web Crawler,我试图使用python的scrapy框架来刮取数据，但我面临一些问题。问题是在登录后。。它没有打开所需的url，一些与会话相关的问题正在发生，但我不确定。下面的代码成功登录，但之后它不会打开url。请检查代码并指导我。它没有在下面代码的链接变量中打开url from scrapy.spider import BaseSpider from scrapy.http import FormRequest import scrapy from scrapy.spider import BaseSpid

我试图使用python的scrapy框架来刮取数据，但我面临一些问题。问题是在登录后。。它没有打开所需的url，一些与会话相关的问题正在发生，但我不确定。下面的代码成功登录，但之后它不会打开url。请检查代码并指导我。它没有在下面代码的链接变量中打开url

from scrapy.spider import BaseSpider
from scrapy.http import FormRequest
import scrapy
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from first.items import FirstItem
from scrapy.http import FormRequest, Request
from selenium.common.exceptions import TimeoutException
from selenium.common.exceptions import NoSuchElementException
from selenium import webdriver
import urllib2
import csv
import time
import re
import locale
import os
import sys
import sys
import unicodedata
import base64


class MySpider(BaseSpider):
    name = "craig"
    allowed_domains = ["linkedin.com"]
    start_urls = ["https://www.linkedin.com"]

    def parse(self, response):
        return scrapy.FormRequest.from_response(
            response,
            formdata={'username': 'name', 'password':password},
            callback=self.after_login
        )

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.logger.error("Login failed")
            return
        else:


            link="https://www.linkedin.com/vsearch/someurl"
            myRequest = FormRequest(link, callback=self.parse1, dont_filter=True)
            yield myRequest


    def parse1(self,response):

        hxs = HtmlXPathSelector(response)
        path = "//*"
        html = str(hxs.select(path).extract())
        f=open("f.txt","w")
        f.write(html)

发布您收到的错误。您可以发布爬网日志吗。可能是您的

链接被重定向到其他内容。默认情况下，scrapy会自动执行所有重定向，因此您的parse1（）
可以从完全不同的链接接收响应。为什么不使用API？发布收到的错误。是否可以发布爬网日志。可能是您的链接被重定向到其他内容。默认情况下，scrapy会自动执行所有重定向，因此您的parse1（）
可以从完全不同的链接接收响应。为什么不使用API？