Python 如何刮取页面的源代码视图?
我正试图通过其sourceview刮取页面。Python 如何刮取页面的源代码视图?,python,facebook,Python,Facebook,我正试图通过其sourceview刮取页面。 例如: 查看来源: 我无法通过此代码获取它: res = requests.get('view-source:https://www.youtube.com/watch?v=t3-zAlsCJ4c&t=1607s') 它会导致如下错误: 回溯(最近一次呼叫最后一次): 文件“C:\Users\hdtra\Desktop\In processing\Facebook\u spider.py”,第31行,在 res=requests.get('
例如: 查看来源: 我无法通过此代码获取它:
res = requests.get('view-source:https://www.youtube.com/watch?v=t3-zAlsCJ4c&t=1607s')
它会导致如下错误:
回溯(最近一次呼叫最后一次):
文件“C:\Users\hdtra\Desktop\In processing\Facebook\u spider.py”,第31行,在
res=requests.get('view-source:https://www.facebook.com/pg/vuonraunhatrang/about/?ref=page_internal')
get中第72行的文件“C:\Program Files\Python36\lib\site packages\requests\api.py”
返回请求('get',url,params=params,**kwargs)
文件“C:\Program Files\Python36\lib\site packages\requests\api.py”,第58行,在请求中
return session.request(method=method,url=url,**kwargs)
文件“C:\Program Files\Python36\lib\site packages\requests\sessions.py”,第508行,在请求中
resp=自我发送(准备,**发送)
文件“C:\Program Files\Python36\lib\site packages\requests\sessions.py”,第612行,在send中
adapter=self.get\u适配器(url=request.url)
文件“C:\Program Files\Python36\lib\site packages\requests\sessions.py”,第703行,在get\U适配器中
raise InvalidSchema(“未找到“%s”的连接适配器%url)
requests.exceptions.InvalidSchema:找不到“查看源:https://www.facebook.com/pg/vuonraunhatrang/about/?ref=page_internal'
如何刮取此Viewsource链接
使用.get()
方法进行刮取对我的项目不起作用
我没有足够的普通页面信息,但是有了这个viewsource窗口,它工作得非常好。您可以使用BeautifulSoup
from bs4 import BeautifulSoup
import urllib
r =urllib.urlopen(<url_to_scrape>).read()
soup = BeautifulSoup(r)
print(soup.prettify())
从bs4导入美化组
导入URL库
r=urllib.urlopen().read()
汤=美汤(r)
打印(soup.prettify())
很抱歉,它仍然不起作用。urllib.error.URLRERROR:从bs4导入BeautifulSoup
,我得到了错误导入错误:没有名为bs4的模块
应该说您必须先安装bs4,我已经安装了,但这意味着Python无法理解以Viewsource开头的链接:。。。
from bs4 import BeautifulSoup
import urllib
r =urllib.urlopen(<url_to_scrape>).read()
soup = BeautifulSoup(r)
print(soup.prettify())