Python Numpy genfromtxt排除某些行_Python_Python 3.x_Numpy

Python Numpy genfromtxt排除某些行

python python-3.x numpy

Python Numpy genfromtxt排除某些行,python,python-3.x,numpy,Python,Python 3.x,Numpy,我有一个庞大的数据集，有很多值。我想排除某些我认为包含不太准确信息的行。例如，我有： 1 150.37265 1.6093940 11986.75879 4343.98486 6345.683 8.535 2458.348 3.069 2554.732 2.205 2011.244 1.855 1665.491 2.055 2229.020 11.092 1159.925 6

我有一个庞大的数据集，有很多值。我想排除某些我认为包含不太准确信息的行。例如，我有：

     1     150.37265     1.6093940 11986.75879  4343.98486   6345.683      8.535   2458.348      3.069   2554.732      2.205   2011.244      1.855   1665.491      2.055   2229.020     11.092   1159.925     63.576   1238.034     63.029   1513.357     76.582    -99.999    -99.999    -99.999    -99.999    609.524      1.071    430.542      0.779    293.832      0.365    201.463      0.499     88.605      1.054    316.139      2.791    426.547      2.960    659.435      3.337    761.369      2.897    982.764      3.981    915.068      3.799    147.845      2.344    284.971      2.969    413.933      3.471    520.958      3.385    761.208      3.425   1299.578      4.812     27.115      0.127     32.692      0.134   3946.924     11.148      0.000      0.030 27.50304  1.00000  -1.00000  -1.00000        -1    0    0    2       230   1   1
     2     150.40848     1.6075042 11126.90527  4298.73779   2326.038      3.374   1683.321      2.562   2624.063      2.233   2718.523      2.144   2892.133      2.693    140.665     61.195    281.988     20.099    427.518     22.779    735.361     37.903    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    -99.999    480.256      2.452   1503.665      6.085   1532.825      5.610   1883.756      5.638   2196.444      4.918    -99.999    -99.999   2087.671      5.736    892.003      5.755   1354.323      6.468   1339.161      6.241   1990.614      6.614   1823.208      5.300    -99.999    -99.999      0.522      0.225     16.993      0.240    -99.900    -99.900      0.000      0.750 12.51440  1.00000  -1.00000  -1.00000        -1    1    0   11       295   1   0
     3     150.40550     1.6069111 11198.41992  4284.49414    223.931      3.299    111.582      0.887     94.436      0.678     67.895      0.511     61.085      0.507     64.002      6.935     55.312      8.437     65.572      4.568     88.131      5.368     46.054      0.342     36.760      0.223     20.608      0.206     11.796      0.140      8.360      0.086      6.925      0.100      4.889      0.251      8.405      0.461     10.009      0.460     22.655      0.625     28.231      0.567     34.231      0.754     37.358      0.781      6.587      0.501      7.931      0.507      9.492      0.535     15.271      0.591     30.671      0.695     38.314      0.841      1.864      0.125      4.507      0.130    142.376      9.231      0.000      0.030 17.73935  1.00000  -1.00000  -1.00000        -1    0    0    0       314   1   1
     4     150.39050     1.6043303 11558.18359  4222.49707     33.437      1.502     23.667      0.681     16.188      0.566     11.345      0.410      8.666      0.358      6.252      7.394     16.608      6.876     12.765      1.795     25.299      2.120      6.197      0.216      4.550      0.115      1.558      0.082      0.789      0.064      0.392      0.062      0.305      0.044      0.183      0.065      0.463      0.131      0.906      0.157      1.353      0.177      2.328      0.190      3.503      0.273      4.320      0.300      0.098      0.099      0.257      0.142      0.455      0.152      0.721      0.172      3.101      0.241      5.155      0.342      0.047      0.304     -0.538      0.245     21.609      8.478      0.000      0.750 11.57455  1.00248  -1.00000  -1.00000        -1    0    0    0       322   1   1

作为我的数据集的一个示例，我说第2行和第3行不够精确，我如何只导入第1行和第4行。我想要更多的一般技巧，而不是使用注释2,3，因为数据集非常庞大

编辑：该操作不必使用genfromtxt完成，如果有另一种方法可以执行与genfromtxt相同的操作，但可以跳过列和行，那就太好了

数据至少可读吗？如果是，您可以将其全部读取，然后通过切片选择所需内容。通常，加载后从数组中删除行会更容易。尽管如果您希望跳过文件开头或结尾的行，您可以使用

skip_header=

和

skip_footer=

关键字参数来

np.genfromtxt

。数据是可读的，但我更希望有一个类似于genfromtxt的use cols参数的操作，这样我就不必浪费时间在这么大的数据集上读取所有这些额外的值。为了让每个人都理解我的观点，我有一个有680亿个值的数据集，我可能只需要3000 x 80个值