使用powershell拆分CSV_Powershell_Csv

使用powershell拆分CSV

powershell csv

使用powershell拆分CSV,powershell,csv,Powershell,Csv,我有大的CSV文件（每个50-500 MB）。在这些计算机上运行复杂的powershell命令需要花费很长时间，并且/或者会遇到内存问题处理数据需要按公共字段分组，例如在ColumnA中。因此，假设数据已经按照该列进行了排序，如果我随机拆分这些文件（即每x千行），那么匹配的条目可能仍然会出现在不同的部分。一个数据库中有数千个不同的组，因此将每个组拆分为一个文件将创建多个文件如何将其拆分为10000行的文件而不丢失组？例如，A列第1-13行为A1，第14-17行为A2等，第9997-10012

我有大的CSV文件（每个50-500 MB）。在这些计算机上运行复杂的powershell命令需要花费很长时间，并且/或者会遇到内存问题

处理数据需要按公共字段分组，例如在ColumnA中。因此，假设数据已经按照该列进行了排序，如果我随机拆分这些文件（即每x千行），那么匹配的条目可能仍然会出现在不同的部分。一个数据库中有数千个不同的组，因此将每个组拆分为一个文件将创建多个文件

如何将其拆分为10000行的文件而不丢失组？例如，A列第1-13行为A1，第14-17行为A2等，第9997-10012行为A784。在本例中，我希望第一个文件包含第1-10012行，下一个文件以第10013行开始

显然，我希望保留整行（而不仅仅是A列），因此如果我将所有结果文件粘贴在一起，这将与原始文件相同。

这需要PowerShell v3（由于

-append

Export CSV

）

另外，我假设您有列标题，第一列名为

col1

。根据需要进行调整

import-csv MYFILE.csv|foreach-object{$_|export-csv -notypeinfo -noclobber -append ($_.col1 + ".csv")}

这将为第一列中的每个不同值创建一个文件，并将该值作为文件名。

未测试。这假设ColumnA是第一列，并且是常用的逗号分隔数据。您需要调整创建正则表达式的行以适合您的数据

 $count = 0

 $header = get-content file.csv -TotalCount 1

 get-content file.csv -ReadCount 1000 |
  foreach {
   #add tail entries from last batch to beginning of this batch
   $newbatch = $tail + $_ 

   #create regex to match last entry in this batch
   $regex = '^' + [regex]::Escape(($newbatch[-1].split(',')[0])) 

   #Extract everything that doesn't match the last entry to new file

     #Add header if this is not the first file
     if ($count)
       {
         $header |
           set-content "c:\somedir\filepart_$count"
        }

     $newbatch -notmatch $regex | 
      add-content "c:\somedir\filepart_$count"  

   #Extact tail entries to add to next batch
   $tail = @($newbatch -match $regex)

   #Increment file counter
   $count++ 

}

这是我的尝试，它变得混乱：-p它将在拆分时将整个文件加载到内存中，但这是纯文本。它应该比导入的对象占用更少的内存，但仍然与文件大小差不多

$filepath = "C:\Users\graimer\Desktop\file.csv"
$file = Get-Item $filepath
$content = Get-Content $file
$csvheader = $content[0]
$lines = $content.Count
$minlines = 10000
$filepart = 1

$start = 1

while ($start -lt $lines - 1) {
    #Set minimum $end value (last line)
    if ($start + $minlines -le $lines - 1) { $end = $start + $minlines - 1 } else { $end = $lines - 1 }

    #Value to compare. ColA is first column in my file = [0] .  ColB is second column = [1]
    $avalue = $content[$end].split(",")[0]
    #If not last line in script
    if ($end -ne $lines -1) {
        #Increase $end by 1 while ColA is the same
        while ($content[$end].split(",")[0] -eq $avalue) { $end++ }
        #Return to last line with equal ColA value
        $end--
    }
    #Create new csv-part
    $filename = $file.FullName.Replace($file.BaseName, ($file.BaseName + ".part$filepart"))
    @($csvheader, $content[$start..$end]) | Set-Content $filename

    #Fix counters
    $filepart++
    $start = $end + 1
}

file.csv：

ColA,ColB,ColC
A1,1,10
A1,2,20
A1,3,30
A2,1,10
A2,2,20
A3,1,10
A4,1,10
A4,2,20
A4,3,30
A4,4,40
A4,5,50
A4,6,60
A5,1,10
A6,1,10
A7,1,10

结果（我使用了

$minlines=5

）：

谢谢，但如上所述，这将创建太多的文件。我不清楚数据是如何设置的。你是说你希望每个文件有多个组，但不希望将单个组拆分为多个文件？我希望每个文件有多个组，但没有文件超过10000行。i、 e.一旦达到10000，继续与该组合作，然后停止并与下一组开始下一个文件非常好。不过，您应该在所有部分中包含csvheader，至少我希望如此。同意，现在可以很好地处理标头。是否可以添加（管道？）以按ColumnA对输入进行排序，ColumnA实际上是文件的第二列。已将[0]调整为[1]有效。问题是假设数据已按该列排序…谢谢！（“我偷了它！”这是对一个编剧的高度赞扬）太好了！让我感到奇怪的是：使用分号分隔的数据，我本以为我必须将其调整为

$regex='^'+[regex]：：Escape（$newbatch[-1].split（'；'）[0]）

。然而，我一眼就忘了，它和逗号配合得很好。。。让我想知道：在这种情况下，正则表达式到底做了什么？看起来非常接近，但生成的文件是原始文件的两倍大，并且似乎与原始文件的“CSV”不一样（在Excel中打开时，它不会拾取列），但在记事本中看起来还可以。另外，你能修改一下输入，让它按那列排序吗。请注意，这实际上不是file.fixed filesizes的第一列。您必须替换分隔符和列号以满足您的需要。在我的示例中，它们是“，”和0（第一个）（请使用split（）查看这两行并替换值）。你说文件已经分类了。如果要在此脚本中对列进行排序，最好的方法是从csv导入对象。这将需要更多的内存，这首先是您的问题如果它更容易实现，那么我不介意10000是最大值而不是最小值。因此在上面的示例中，第一个文件将是第1-9996行。

file.part1.csv:

ColA,ColB,ColC
A1,1,10
A1,2,20
A1,3,30
A2,1,10
A2,2,20

file.part2.csv:

ColA,ColB,ColC
A3,1,10
A4,1,10
A4,2,20
A4,3,30
A4,4,40
A4,5,50
A4,6,60

file.part3.csv:

ColA,ColB,ColC
A5,1,10
A6,1,10
A7,1,10