Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/338.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
通过请求绕过cookies+;python_Python_Web Scraping_Python Requests - Fatal编程技术网

通过请求绕过cookies+;python

通过请求绕过cookies+;python,python,web-scraping,python-requests,Python,Web Scraping,Python Requests,我是python和scraping的高手。我了解基本情况,但就是无法克服这个问题 我正在尝试使用python和请求和库从www.tweakers.net中获取内容。然而,当我抓取时,我不断地抓取cookie语句,而不是实际的站点内容。希望有人可以帮助我的代码。我在其他网站上遇到了类似的问题,所以我真的很想了解我如何解决这样的问题。这就是我现在拥有的 import time from bs4 import BeautifulSoup import requests from requests.co

我是python和scraping的高手。我了解基本情况,但就是无法克服这个问题

我正在尝试使用python和请求和库从www.tweakers.net中获取内容。然而,当我抓取时,我不断地抓取cookie语句,而不是实际的站点内容。希望有人可以帮助我的代码。我在其他网站上遇到了类似的问题,所以我真的很想了解我如何解决这样的问题。这就是我现在拥有的

import time
from bs4 import BeautifulSoup
import requests
from requests.cookies import cookiejar_from_dict


last_agreed_time = str(int(time.time() * 1000))
url = 'www.tweakers.net'

with requests.Session() as session:
    session.headers = {'User-Agent': 'Mozilla/5.0 (Linux; U; Android 4.0.3; ko-kr; LG-L160L Build/IML74K) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'}
    session.cookies = cookiejar_from_dict({
        'wt3_sid': %3B318816705845986
        'wt_cdbeid': 68907f896d9f37509a2f4b0a9495f272
        'wt_feid': 2f59b5d845403ada14b462a2c1d0b967
        'wt_fweid' 473bb8c305b0b42f5202e14a
})
    response = session.get(url)
    soup = BeautifulSoup(response.content)
    soup.prettify()`

不要介意标题的内容,我从其他地方撕下了它。

两种最好的刮削进口产品是selenium或cookielib。这里有一个指向selenium和cookielib的链接


两种最好的刮削进口产品是硒或cookielib。这里有一个指向selenium和cookielib的链接

## added selenium code
from selenium import webdriver
import time
from bs4 import BeautifulSoup
import requests

url = 'www.tweakers.net'
driver = webdriver.Chrome() # or webdriver.Firefox()
driver.set_window_size(1120, 550)
driver.get(url)
#add needed cookies
driver.add_cookie({'wt3_sid': %3B318816705845986
        'wt_cdbeid': 68907f896d9f37509a2f4b0a9495f272
        'wt_feid': 2f59b5d845403ada14b462a2c1d0b967
        'wt_fweid' 473bb8c305b0b42f5202e14a})
##this would be to retrieve a cookie
print(driver.get_cookie('string'))
driver.get(url)
soup = BeautifulSoup(driver.content)
    soup.prettify()