Python 在scikit learn中,load_files函数读取不需要的文本文件

Python 在scikit learn中,load_files函数读取不需要的文本文件,python,file-io,scikit-learn,Python,File Io,Scikit Learn,我正在使用sci工具包中的load_files功能学习加载2个简单文本文档 设置非常简单。我的文件名为file1和file2。 第一个文件由文本猪-牛-鸡组成,而第二个文件由文本猪-汽车-卡车组成 他们都住在这里: /home/me/Dropbox/test 到目前为止还不错 现在,我使用load_files函数 text_data = load_files('/home/me/Dropbox/test', encoding='latin-1') 接下来,我检查 text\u数据。文件名 …

我正在使用sci工具包中的
load_files
功能学习加载2个简单文本文档

设置非常简单。我的文件名为
file1
file2
。 第一个文件由文本
猪-牛-鸡
组成,而第二个文件由文本
猪-汽车-卡车
组成

他们都住在这里:

/home/me/Dropbox/test
到目前为止还不错

现在,我使用
load_files
函数

text_data = load_files('/home/me/Dropbox/test', encoding='latin-1')
接下来,我检查
text\u数据。文件名

…结果我得到了一些奇怪的额外文件

[ '/home/me/Dropbox/test/folder1/document2.txt'
  '/home/me/Dropbox/test/folder1/document2.txt~'
  '/home/me/Dropbox/test/folder1/document1.txt~'
  '/home/me/Dropbox/test/folder1/document1.txt']
我查看了
text\u data.data

并获得:

我假设这里有隐藏文件、临时文件或诸如此类的东西。我的两个文件都没有打开。我重新启动了iPython,重新启动了笔记本电脑,等等。我使用了
ls-lart
,我在目录中看到了它们

我正在使用Ubuntu 13.10

我想知道一个摆脱它们的好方法,这将解决这个特殊情况下的问题,但除此之外,我想知道为什么会发生这种情况,以及如何确保它不会再次发生。这些隐藏文件背后的机制是什么?为什么函数会加载它们

提前谢谢


谢谢

这些文件可能是由文本编辑器(如vim)自动创建的备份文件

要递归删除当前目录下以
~
结尾的所有文件,可以使用以下命令:

find -name "*~" -delete

现在的问题是您是否真的想使用
sklearn.dataset.load\u files
来加载文件。它的设计目的是加载以类别作为子文件夹名称的文本文件,而您的目录似乎不是这样。如果您只想加载两个简单的文本文档,那么内置的
open
功能就足够了吗?

~
结尾的文件通常是一些文本编辑器制作的备份文件。你为什么不把它们拿走呢?在unix上的dropbox文件夹中,通常还会自动创建一个
.dropbox
文件,但它似乎不包括在您的列表中。这些文件不会隐藏。隐藏文件的名称以句点开头,IIRC
load_files
将跳过这些文件。为什么,为什么像vim这样一个古怪且看似无害的编辑器对用户的文件如此随意?我在这里使用了一个简单的例子;我确实计划使用类别作为子文件夹名称。
find -name "*~" -delete