Go 有效地列出目录中包含大量条目的文件
我需要递归地读取一个目录结构,但是一旦我读取了每个目录的所有条目,我还需要执行一个额外的步骤。因此,我需要编写自己的递归逻辑(不能使用过于简单的Go 有效地列出目录中包含大量条目的文件,go,Go,我需要递归地读取一个目录结构,但是一旦我读取了每个目录的所有条目,我还需要执行一个额外的步骤。因此,我需要编写自己的递归逻辑(不能使用过于简单的filepath.Walk例程)。但是,ioutil.ReadDir和filepath.Glob例程只返回片。如果我突破了ext4或xfs的限制,并且拥有一个文件数量达到数十亿的目录,该怎么办?我希望golang有一个函数,它通过通道而不是排序的片段返回一系列未排序的os.FileInfo(或者更好的是原始字符串)。在这种情况下,我们如何有效地读取文件条
filepath.Walk
例程)。但是,ioutil.ReadDir
和filepath.Glob
例程只返回片。如果我突破了ext4或xfs的限制,并且拥有一个文件数量达到数十亿的目录,该怎么办?我希望golang有一个函数,它通过通道而不是排序的片段返回一系列未排序的os.FileInfo
(或者更好的是原始字符串)。在这种情况下,我们如何有效地读取文件条目
上面引用的所有函数似乎都依赖于os/dir_unix.go中的readdirnames
,而且,出于某种原因,它只是在看起来很容易生成一个gothread并将值推送到通道时生成一个数组。这样做可能有合理的逻辑,但不清楚是什么。我是新来的,所以我也很容易错过一些其他人都知道的原则
这是源代码,为了方便起见:
func (f *File) readdirnames(n int) (names []string, err error) {
// If this file has no dirinfo, create one.
if f.dirinfo == nil {
f.dirinfo = new(dirInfo)
// The buffer must be at least a block long.
f.dirinfo.buf = make([]byte, blockSize)
}
d := f.dirinfo
size := n
if size <= 0 {
size = 100
n = -1
}
names = make([]string, 0, size) // Empty with room to grow.
for n != 0 {
// Refill the buffer if necessary
if d.bufp >= d.nbuf {
d.bufp = 0
var errno error
d.nbuf, errno = fixCount(syscall.ReadDirent(f.fd, d.buf))
if errno != nil {
return names, NewSyscallError("readdirent", errno)
}
if d.nbuf <= 0 {
break // EOF
}
}
// Drain the buffer
var nb, nc int
nb, nc, names = syscall.ParseDirent(d.buf[d.bufp:d.nbuf], n, names)
d.bufp += nb
n -= nc
}
if n >= 0 && len(names) == 0 {
return names, io.EOF
}
return names, nil
}
func(f*File)readdirnames(n int)(名称[]字符串,错误){
//如果此文件没有dirinfo,请创建一个。
如果f.dirinfo==nil{
f、 dirinfo=new(dirinfo)
//缓冲区必须至少有一个块长。
f、 dirinfo.buf=make([]字节,块大小)
}
d:=f.dirinfo
尺寸:=n
如果尺寸=d.nbuf{
d、 bufp=0
var errno error
d、 nbuf,errno=fixCount(syscall.ReadDirent(f.fd,d.buf))
如果errno!=nil{
返回名称,NewSyscallError(“readdirent”,errno)
}
如果d.nbuf=0&&len(名称)==0{
返回名称,io.EOF
}
返回名称,无
}
ioutil.ReadDir
和filepath.Glob
只是读取目录条目的方便功能
如果提供n
参数>0,则可以直接使用或方法批量读取目录项
对于像读取目录条目这样的基本功能,不需要增加goroutine和channel的开销,也可以提供另一种返回错误的方法。如果您愿意,您可以始终使用自己的goroutine和channel模式包装批处理调用。即使我提供了一个示例
n
3,我也会得到更少或更多(有时是2,有时是4)。这只是作为建议值提供的吗?@dustinprea:theReaddir*
文档说他们应该返回“最多n…”。可能的结果会更少,但如果你能重现,超过n将是一个错误。