Python 使用pandas导入数据集

Python 使用pandas导入数据集,python,python-3.x,pandas,Python,Python 3.x,Pandas,我从github(json)导入了一个数据集,这是一个包含许多子文件夹的文件夹,子文件夹下有许多文档文件,但现在我已经将数据集下载到本地驱动器,我不知道如何从本地驱动器导入数据集文件夹。我确实知道如何使用pandas导入csv文件,但因为我的数据集是我上面提到的文件夹。有人能告诉我如何从我的本地驱动器导入它而不影响下面的代码吗。当然,我正在使用python。请检查显示从github导入数据集的代码。“20_新闻组”是本地驱动器中文件夹的名称 # Import Dataset df = pd.re

我从github(json)导入了一个数据集,这是一个包含许多子文件夹的文件夹,子文件夹下有许多文档文件,但现在我已经将数据集下载到本地驱动器,我不知道如何从本地驱动器导入数据集文件夹。我确实知道如何使用pandas导入csv文件,但因为我的数据集是我上面提到的文件夹。有人能告诉我如何从我的本地驱动器导入它而不影响下面的代码吗。当然,我正在使用python。请检查显示从github导入数据集的代码。“20_新闻组”是本地驱动器中文件夹的名称

# Import Dataset
df = pd.read_json('https://raw.githubusercontent.com/selva86/datasets/master/newsgroups.json')
df = df.loc[df.target_names.isin(['soc.religion.christian', 'rec.sport.hockey', 'talk.politics.mideast', 'rec.motorcycles']) , :]
print(df.shape)  #> (2361, 3)
df.head()

# Convert to list
data = df.content.values.tolist()
data_words = list(sent_to_words(data))
print(data_words[:1])
应该足够了。 (或者
pd.read_json('some/directory/newsgroups.json')
如果它不在当前目录中。)

应该足够了。
(或者
pd.read_json('some/directory/newsgroups.json')
如果它不在当前目录中。)

关于从一个目录上载多个文件,我会看看这是否回答了你的问题:

关于从一个目录上载多个文件,我会看看这是否回答了你的问题:

(path_或_buff,args)采用文件路径、URL或字节缓冲区。有效URL使用以下方案,包括http、ftp、s3、gcs和文件。在您的情况下,https方案不受支持。啊!是一个错误。死链接。已更正读取_json(path_或_buff,args)采用文件路径、URL或字节缓冲区。有效的URL使用以下方案,包括http、ftp、s3、gcs和文件。您的情况下不支持https方案。啊!是的,一个错误。死链接。纠正了很多问题。实际上,我的情况是,我从UCI数据集网站下载了数据集“新闻组”,该网站是一个与任何其他文件夹一样的文件夹,我我想导入那个文件夹,但你的方法也很好。我从github网站下载了json文件,效果很好。非常感谢。实际上,我的情况是,我从UCI数据集网站下载了数据集“新闻组”,这是一个与任何其他文件夹类似的文件夹,我想导入那个文件夹,但你的方法也很好。我从github网站下载了json文件,可以正常工作。谢谢
df = pd.read_json('newsgroups.json')