Python 在sklearn和skmultilearn中以脱机模式加载数据集

Python 在sklearn和skmultilearn中以脱机模式加载数据集,python,scikit-learn,multilabel-classification,skmultilearn,Python,Scikit Learn,Multilabel Classification,Skmultilearn,我想在我的anaconda项目(python 3.6.5)中使用数据集:情感、场景和酵母。 我使用了以下代码: 当我连接到internet时,它会成功工作, 但当我离线时,它就不工作了! 我已将上述所有3个数据集下载到如下文件夹中: H:\Projects\dataset 脱机时如何将此文件夹用作源数据集? (我正在使用windows 10) 我下载的数据集的扩展名是:.rar 比如:emotions.rar、scene.rar和yeast.rar,我从以下网站下载了它们:您可以,但首先需要知道

我想在我的anaconda项目(python 3.6.5)中使用数据集:情感、场景和酵母。 我使用了以下代码:

当我连接到internet时,它会成功工作, 但当我离线时,它就不工作了! 我已将上述所有3个数据集下载到如下文件夹中:

H:\Projects\dataset

脱机时如何将此文件夹用作源数据集? (我正在使用windows 10)

我下载的数据集的扩展名是:.rar
比如:emotions.rar、scene.rar和yeast.rar,我从以下网站下载了它们:

您可以,但首先需要知道数据集存储到的路径。 为此,可以加载一次并获取路径。此路径永远不会更改,因此您只需执行以下操作一次即可获得所需的路径。接下来,了解路径后,您可以脱机加载所需的任何内容

示例

from sklearn.datasets import load_iris
import pandas as pd, os

#get the path
path = load_iris()['filename']
print(path)

#offline load
df = pd.read_csv(path)

#the path: THIS IS WHAT YOU NEED
main_path_with_datasets = os.path.dirname(path)
一旦您通过数据集获取了
main\u path\u,即通过执行
main\u path\u with\u datasets=os.path.dirname(path)
,您现在就拥有了路径。您可以使用它加载所有可用的下载数据集

os.listdir(main_path_with_datasets)

['digits.csv.gz',
 'wine_data.csv',
 'diabetes_target.csv.gz',
 'iris.csv',
 'breast_cancer.csv',
 'diabetes_data.csv.gz',
 'linnerud_physiological.csv',
 'linnerud_exercise.csv',
 'boston_house_prices.csv']

为skmultilearn编辑

from skmultilearn.dataset import load_dataset_dump

path = 'C:\\Users\\myname\\scikit_ml_learn_data\\'

X, y, feature_names, label_names = load_dataset_dump(path + 'emotions-train.scikitml.bz2')

使用
load\u dataset()
时,您试图从服务器下载某些数据集,如果没有internet连接,这是不可能的。如果您已经在本地存储中下载了文件,您可能可以通过使用其他文件实用程序(如将
csv
文件导入熊猫数据帧)在中使用这些文件。是否有任何解决方案可以使用我的计算机作为本地服务器,通过函数
load\u dataset()从我的HDD加载数据集
?告诉我我的答案是否有帮助您的答案有助于找到我的问题所在。但为了解决我的问题,我使用了@makis solution。谢谢你们。数据集是自动下载到这个文件夹中的:
C:\Users\myname\scikit\u ml\u learn\u data
,它的名字是:
emotations train.scikitml.bz2
,但我的程序似乎没有使用它!因为每次我运行我的程序,它都会检查互联网连接。如果没有连接,程序就不能工作!然后您只需要
os.listdir(“C:\Users\myname\scikit\u ml\u learn\u data”)
您的最后一个答案似乎可以通过这样的小编辑来实现:
path='C:\\Users\\myname\\scikit\u ml\u learn\u data\\\\\
。我会检查一下,然后告诉你。谢谢,好的。如果你有窗户,你需要两个反斜杠。考虑一下我的回答
from skmultilearn.dataset import load_dataset_dump

path = 'C:\\Users\\myname\\scikit_ml_learn_data\\'

X, y, feature_names, label_names = load_dataset_dump(path + 'emotions-train.scikitml.bz2')