Python 在scikit learn中,load_files函数读取不需要的文本文件
我正在使用sci工具包中的Python 在scikit learn中,load_files函数读取不需要的文本文件,python,file-io,scikit-learn,Python,File Io,Scikit Learn,我正在使用sci工具包中的load_files功能学习加载2个简单文本文档 设置非常简单。我的文件名为file1和file2。 第一个文件由文本猪-牛-鸡组成,而第二个文件由文本猪-汽车-卡车组成 他们都住在这里: /home/me/Dropbox/test 到目前为止还不错 现在,我使用load_files函数 text_data = load_files('/home/me/Dropbox/test', encoding='latin-1') 接下来,我检查 text\u数据。文件名 …
load_files
功能学习加载2个简单文本文档
设置非常简单。我的文件名为file1
和file2
。
第一个文件由文本猪-牛-鸡
组成,而第二个文件由文本猪-汽车-卡车
组成
他们都住在这里:
/home/me/Dropbox/test
到目前为止还不错
现在,我使用load_files
函数
text_data = load_files('/home/me/Dropbox/test', encoding='latin-1')
接下来,我检查text\u数据。文件名
…结果我得到了一些奇怪的额外文件
[ '/home/me/Dropbox/test/folder1/document2.txt'
'/home/me/Dropbox/test/folder1/document2.txt~'
'/home/me/Dropbox/test/folder1/document1.txt~'
'/home/me/Dropbox/test/folder1/document1.txt']
我查看了text\u data.data
并获得: 我假设这里有隐藏文件、临时文件或诸如此类的东西。我的两个文件都没有打开。我重新启动了iPython,重新启动了笔记本电脑,等等。我使用了
ls-lart
,我在目录中看到了它们
我正在使用Ubuntu 13.10
我想知道一个摆脱它们的好方法,这将解决这个特殊情况下的问题,但除此之外,我想知道为什么会发生这种情况,以及如何确保它不会再次发生。这些隐藏文件背后的机制是什么?为什么函数会加载它们
提前谢谢
谢谢 这些文件可能是由文本编辑器(如vim)自动创建的备份文件 要递归删除当前目录下以
~
结尾的所有文件,可以使用以下命令:
find -name "*~" -delete
现在的问题是您是否真的想使用
sklearn.dataset.load\u files
来加载文件。它的设计目的是加载以类别作为子文件夹名称的文本文件,而您的目录似乎不是这样。如果您只想加载两个简单的文本文档,那么内置的open
功能就足够了吗?以~
结尾的文件通常是一些文本编辑器制作的备份文件。你为什么不把它们拿走呢?在unix上的dropbox文件夹中,通常还会自动创建一个.dropbox
文件,但它似乎不包括在您的列表中。这些文件不会隐藏。隐藏文件的名称以句点开头,IIRCload_files
将跳过这些文件。为什么,为什么像vim这样一个古怪且看似无害的编辑器对用户的文件如此随意?我在这里使用了一个简单的例子;我确实计划使用类别作为子文件夹名称。
find -name "*~" -delete