如何使用python从intranet站点抓取URL数据?

如何使用python从intranet站点抓取URL数据?,python,web-scraping,urllib,intranet,Python,Web Scraping,Urllib,Intranet,我需要一个巨蟒战士来帮助我(我是个傻瓜)!我正试图使用模块urllib从一个内部网站中获取某些数据。但是,由于我的公司网站只供员工查看,不供公众查看,因此我认为这就是为什么我会得到以下代码: IOError:('http error',401',未经授权',) 我该怎么做?它甚至不会使用htmlfile.read()读取站点 获取公共站点的示例代码: import urllib import re htmlfile = urllib.urlopen("http://finance.yahoo.

我需要一个巨蟒战士来帮助我(我是个傻瓜)!我正试图使用模块urllib从一个内部网站中获取某些数据。但是,由于我的公司网站只供员工查看,不供公众查看,因此我认为这就是为什么我会得到以下代码:

IOError:('http error',401',未经授权',)

我该怎么做?它甚至不会使用htmlfile.read()读取站点

获取公共站点的示例代码:

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price
导入urllib
进口稀土
htmlfile=urllib.urlopen(“http://finance.yahoo.com/q?s=AAPL")
htmltext=htmlfile.read()
正则表达式='(.+?)'
pattern=re.compile(regex)
price=re.findall(模式,htmltext)
印刷价格
试试:


如果您需要有关此库的任何详细信息的帮助,但在文档中找不到,请留下评论。

请不要使用regex@heinst是的,漂亮的汤是一种更容易解析HTML的方法。嗯,我确实遇到了Beauty soup,但我避免了安装,因为我的公司限制了很多我无法下载的东西:(但我相信我可以说服一些人。感谢反馈!如果你安装了pip,你可以运行“pip安装请求”\u ntlm)没有报价和将为您安装请求。您真是个天才!!!它终于成功了!非常感谢您的帮助!我真的非常感谢您在这方面的知识!您知道如何避免在源代码中清楚地输入我的密码吗?因为它将在同事之间共享?谢谢+1。我过去经常回复r=请求。get(我,auth)=(用户名、密码)但发现这次效果不好,您的代码修复了该问题。
import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text