Python 3.x 使用代理加载fetch_lfw_人员

Python 3.x 使用代理加载fetch_lfw_人员,python-3.x,proxy,scikit-learn,dataset,jupyter-notebook,Python 3.x,Proxy,Scikit Learn,Dataset,Jupyter Notebook,我想把这个玩具数据集用于教育。 但是当我尝试使用内置的sklearn loader加载它时,我得到了错误 from sklearn import datasets lfw_people = datasets.fetch_lfw_people(min_faces_per_person=50, resize=0.4, data_home='.', ) 错误: urlopen错误[WinError 10061] 我知道这是关于代理的——通常是安装我使用的新软件包—

我想把这个玩具数据集用于教育。 但是当我尝试使用内置的sklearn loader加载它时,我得到了错误

from sklearn import datasets 
lfw_people = datasets.fetch_lfw_people(min_faces_per_person=50, 
                resize=0.4, data_home='.', )
错误:

urlopen错误[WinError 10061]

我知道这是关于代理的——通常是安装我使用的新软件包——代理选项。 但是现在怎么做呢?在
数据集中没有这样的选项。fetch\u lfw\u people


我想从官方网站上手动下载:
但是我不知道在python中选择哪一个以及之后如何打开。

fetch\u lfw\u people
默认情况下会检查
'~/scikit\u learn\u data/lfw\u home'
中的数据,查看数据集是否已经下载并且正确(通过匹配哈希)

根据,它从以下URL下载4个文件:

  • 目标

    • pairsDevTrain.txt
    • pairsDevTest.txt
    • pairs.txt
  • 获取数据

    • lfw漏斗状.tgz(默认值):

    • lfw.tgz(当
      漏斗状=False
      时):

因此,您可以下载这些文件并将其保存在指定的文件夹中。之后,只需调用
fetch\u lfw\u people
方法,它将从该位置加载数据,而无需连接到internet

这里的
~
指的是用户的家庭位置。根据您的系统,您可以使用以下代码了解该文件夹的默认位置

from sklearn.datasets import get_data_home
print(get_data_home())

由于您已将该值更改为
data\u home='。
,因此您应该使用
~/lfw\u home
,而不使用
'scikit\u learn\u data'
(即直接在主文件夹中创建
lfw\u home

真棒的建议,谢谢!这个链接是我唯一可以下载这些数据集的地方吗?看起来它在我的电脑上被阻止了@Mikhail_Sam这些是sklearn用于下载数据集的位置。也许你也能找到其他地方。但我不确定他们是如何使用sklearn代码的