如何使用python从intranet站点抓取URL数据？_Python_Web Scraping_Urllib_Intranet

如何使用python从intranet站点抓取URL数据？

python web-scraping

如何使用python从intranet站点抓取URL数据？,python,web-scraping,urllib,intranet,Python,Web Scraping,Urllib,Intranet,我需要一个巨蟒战士来帮助我（我是个傻瓜）！我正试图使用模块urllib从一个内部网站中获取某些数据。但是，由于我的公司网站只供员工查看，不供公众查看，因此我认为这就是为什么我会得到以下代码： IOError:（'http error'，401'，未经授权'，）我该怎么做？它甚至不会使用htmlfile.read（）读取站点获取公共站点的示例代码： import urllib import re htmlfile = urllib.urlopen("http://finance.yahoo.

我需要一个巨蟒战士来帮助我（我是个傻瓜）！我正试图使用模块urllib从一个内部网站中获取某些数据。但是，由于我的公司网站只供员工查看，不供公众查看，因此我认为这就是为什么我会得到以下代码：

IOError:（'http error'，401'，未经授权'，）

我该怎么做？它甚至不会使用htmlfile.read（）读取站点

获取公共站点的示例代码：

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

导入urllib
进口稀土
htmlfile=urllib.urlopen（“http://finance.yahoo.com/q?s=AAPL")
htmltext=htmlfile.read（）
正则表达式='（.+？）'
pattern=re.compile（regex）
price=re.findall（模式，htmltext）
印刷价格

试试：

如果您需要有关此库的任何详细信息的帮助，但在文档中找不到，请留下评论。

请不要使用regex@heinst是的，漂亮的汤是一种更容易解析HTML的方法。嗯，我确实遇到了Beauty soup，但我避免了安装，因为我的公司限制了很多我无法下载的东西：（但我相信我可以说服一些人。感谢反馈！如果你安装了pip，你可以运行“pip安装请求”\u ntlm）没有报价和将为您安装请求。您真是个天才！！！它终于成功了！非常感谢您的帮助！我真的非常感谢您在这方面的知识！您知道如何避免在源代码中清楚地输入我的密码吗？因为它将在同事之间共享？谢谢+1。我过去经常回复r=请求。get（我，auth）=（用户名、密码）但发现这次效果不好，您的代码修复了该问题。

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text