Python 因为循环时间太长了_Python_Pandas

Python 因为循环时间太长了

python pandas

Python 因为循环时间太长了,python,pandas,Python,Pandas,编辑：这里是循环上方的代码，如果不是问题，可以获得更多有用的答案 import os import pandas as pd import numpy import csv from math import * ParcelSize = 50 UARFCN = 3087 y= r"C:\Users\Heba R\Desktop\GP\Pilot1.csv" x= r"C:\Users\Heba R\Desktop\GP\Cell.csv" scanner_File = pd.read

编辑：这里是循环上方的代码，如果不是问题，可以获得更多有用的答案

import os
import pandas as pd 
import numpy 
import csv 
from math import *
ParcelSize = 50
UARFCN = 3087 

y= r"C:\Users\Heba R\Desktop\GP\Pilot1.csv"
x= r"C:\Users\Heba R\Desktop\GP\Cell.csv"

scanner_File = pd.read_csv(y) 
Cell_file = pd.read_csv(x)
Cells = Cell_file[['Cell', 'Lat', 'Lon', 'SC', 'UARFCN', 'ANT_DIRECTION']]

scanner = scanner_File[
        ['Latitude', 'Longitude', 'PSC: Top #1 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #1 (UARFCN #01)',
         'Sc Aggr Ec/Io (dB): Top #1 (UARFCN #01)',
         'PSC: Top #2 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #2 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #2 (UARFCN #01)',
         'PSC: Top #3 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #3 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #3 (UARFCN #01)',
         'PSC: Top #4 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #4 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #4 (UARFCN #01)',
         'PSC: Top #5 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #5 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #5 (UARFCN #01)',
         'PSC: Top #6 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #6 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #6 (UARFCN #01)',
         'PSC: Top #7 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #7 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #7 (UARFCN #01)',
         'PSC: Top #8 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #8 (UARFCN #01)', 'Sc Aggr Ec/Io (dB): Top #8 (UARFCN #01)',
         'PSC: Top #9 (UARFCN #01)', 'Sc Aggr Ec (dBm): Top #9 (UARFCN #01)',
         'Sc Aggr Ec/Io (dB): Top #9 (UARFCN #01)']]
scanner_size = scanner.shape[0] 
cells_size = Cells.shape[0]

def CalcDistanceM(lat1, lon1, lat2, lon2): 
        lat1, lon1, lat2, lon2 = map(radians, [lat1, lon1, lat2, lon2]) #convert decimal to rad 
        #haversine formula to calculate two points great circle distance on earth
        dlon = lon2 - lon1
        dlat = lat2 - lat1
        a = sin(dlat / 2) ** 2 + cos(lat1) * cos(lat2) * sin(dlon / 2) ** 2
        c = 2 * atan2(sqrt(a), sqrt(1 - a))
        distance = 6371 * c * 1000 #radius of earth in km =6371
        return distance

def fn_CalcParcelID(Pos, ParcelUnitSize):
        if (Pos == 500):  # null parcel
            Result = int(50000000)
        elif (Pos < 0):
            Result = int(Pos * 100000) - ParcelUnitSize + (int(Pos * 100000) % ParcelUnitSize)
        else:
            Result = int(Pos * 100000) - (int(Pos * 100000) % ParcelUnitSize)
        return int(Result)

A1=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A2=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A3=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A4=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A5=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A6=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A7=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A8=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
A9=pd.DataFrame(columns=['Latitude','Longitude','PSC','EcNo','RSCP'])
for i in range (scanner_size):
       #if isnan(scanner['PSC: Top #1 (UARFCN #01)'][i]) == False:
       if (scanner['PSC: Top #1 (UARFCN #01)'][i]) != -1 :
          A1 = A1.append({ 'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                            'PSC': scanner['PSC: Top #1 (UARFCN #01)'][i],'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #1 (UARFCN #01)'][i],'RSCP': scanner['Sc Aggr Ec (dBm): Top #1 (UARFCN #01)'][i]}, ignore_index=True)

       if (scanner['PSC: Top #2 (UARFCN #01)'][i]) !=-1:
           A2 = A2.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #2 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #2 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #2 (UARFCN #01)'][i]}, ignore_index=True)
       if (scanner['PSC: Top #3 (UARFCN #01)'][i]) != -1:
           A3 = A3.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #3 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #3 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #3 (UARFCN #01)'][i]}, ignore_index=True)
       if  (scanner['PSC: Top #4 (UARFCN #01)'][i]) != -1:
           A4 = A4.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #4 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #4 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #4 (UARFCN #01)'][i]}, ignore_index=True)
       if  (scanner['PSC: Top #5 (UARFCN #01)'][i]) != -1:
           A5 = A5.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #5 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #5 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #5 (UARFCN #01)'][i]}, ignore_index=True)
       if  (scanner['PSC: Top #6 (UARFCN #01)'][i]) != -1:
           A6 = A6.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #6 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #6 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #6 (UARFCN #01)'][i]}, ignore_index=True)
       if  (scanner['PSC: Top #7 (UARFCN #01)'][i]) != -1:
           A7 = A7.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #7 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #7 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #7 (UARFCN #01)'][i]}, ignore_index=True)
       if  (scanner['PSC: Top #8 (UARFCN #01)'][i]) != -1:
           A8 = A8.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #8 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #8 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #8 (UARFCN #01)'][i]}, ignore_index=True)
       if  (scanner['PSC: Top #9 (UARFCN #01)'][i]) != -1:
           A9 = A9.append({'Latitude': scanner['Latitude'][i], 'Longitude': scanner['Longitude'][i],
                           'PSC': scanner['PSC: Top #9 (UARFCN #01)'][i],
                           'EcNo': scanner['Sc Aggr Ec/Io (dB): Top #9 (UARFCN #01)'][i],
                           'RSCP': scanner['Sc Aggr Ec (dBm): Top #9 (UARFCN #01)'][i]}, ignore_index=True)
A=pd.concat([A1,A2,A3,A4,A5,A6,A7,A8,A9],sort=False)
A = A[~A[['Latitude','Longitude','PSC','EcNo','RSCP']].apply(frozenset, axis=1).duplicated()] #~ is bitwise not frozenset elem remain unchanged after creation
A.to_csv('table_data_pilot.csv',index=True)
A = pd.read_csv('table_data_pilot.csv')
#A=A.iloc[:50,:].reset_index()
A_size = A.shape[0]

for i in range(A_size):
      j = i +1
      for j in range (A_size):
         dLat=A['Latitude'][i] - A['Latitude'][j]
         dLon=A['Longitude'][i] - A['Longitude'][j]
         if abs(dLat) < 0.00045 and abs(dLon) < 0.00045:
           distance = CalcDistanceM(A['Latitude'][j], A['Longitude'][j],
                                                A['Latitude'][i],
                                                A['Longitude'][i])
           print (distance)

B1 = pd.DataFrame(columns=['Lat','Lon','UARFCN','PSC','SC_Avg_EcNo','SC_Avg_RSCP'])

循环用于计算新的纬度和经度，然后生成新的csv文件。

A是一个csv文件，几乎有23000行和42列

如果您使用的是pandas，请使用ItErrors（）

通常，您应该尽可能避免使用
for
循环在数据帧上迭代
关于熊猫的文件说：
警告
在pandas对象中迭代通常是缓慢的。在许多情况下，不需要对行进行手动迭代，可以通过以下方法之一避免：

寻找矢量化解决方案：许多操作可以使用内置方法或NumPy函数（布尔）索引执行

当您的函数不能同时处理完整的数据帧/系列时，最好使用
apply（）
，而不是迭代这些值。参见功能应用上的文档

此外，使用
append（）
将新行添加到循环内的数据帧中是非常有问题的
关于解释它的文件：
将列添加到数据帧相对较快。但是，添加行需要一个副本，而且可能会很昂贵。我们建议将预构建的记录列表传递给DataFrame构造函数，而不是通过迭代地向其追加记录来构建DataFrame。有关更多信息，请参阅附加到数据帧
如果在循环中这样做，那么循环的每次迭代都将把数据帧中的所有数据复制到一个新的数据帧中，只是为了添加一行。此外，此操作每次都会变得更昂贵，因为数据帧不断增长，每次都会有更多的数据要复制

在您的特定情况下，您可以轻松避免大多数情况，方法是将A作为一个整体处理，生成要附加到B1的所有行，然后执行单个
append（）
操作，这意味着您只需要复制B1一次
总而言之：

rows_to_add = pd.DataFrame({ 'Lat': A['Latitude'].apply( lambda x: fn_CalcParcelID(x, ParcelSize) / 100000.0 ), 'Lon': A['Longitude'].apply( lambda x: fn_CalcParcelID(x, ParcelSize) / 100000.0 ), 'PSC': A['PSC'], 'UARFCN': UARFCN, 'SC_Avg_EcNo': A['EcNo'], 'SC_Avg_RSCP': A['RSCP'], }) B1 = B1.append(rows_to_add, ignore_index=True)
这将使您从几分钟的运行中解脱出来，并在几秒钟内完成此操作
您可以通过使用矢量化操作实现
fn\u CalcParcelID（）
来进一步优化它。（很难说怎么做，因为您没有向我们展示该函数的实现。）但第一次优化可能就是您所需要的全部。如果您觉得有必要，可以问一个关于矢量化的新问题

更新：您的代码的第一部分确实存在相同问题的版本，您正在通过
扫描仪
CSV文件循环，并将其重新组织为A1到A9。（在每个
for
循环的
中都有一个A1=A1.append（…），因此循环中也有appends！）您可以通过以下方式解决此问题： A1_rows = scanner[scanner['PSC: Top #1 (UARFCN #01)'] != -1] A1 = pd.DataFrame({ 'Latitude': A1_rows['Latitude'], 'Longitude': A1_rows['Longitude'], 'PSC': A1_rows['PSC: Top #1 (UARFCN #01)'], 'EcNo': A1_rows['Sc Aggr Ec/Io (dB): Top #1 (UARFCN #01)'], 'RSCP': A1_rows['Sc Aggr Ec (dBm): Top #1 (UARFCN #01)'], }) 其他8个类似的数据帧也是如此。 A_size的值是多少？您是如何读取文件的？熊猫？python的csv模块？是的，csv模块a_size here=23641没有任何区别。已经8分钟了，它仍然在运行。如果你粘贴整个代码，我就可以确保快速完成。它没有任何区别。不幸的是，我不知道延迟从何而来。。我用这个循环上面的代码编辑了我的问题，如果你能帮我的话it@HebaR看起来在脚本的第一部分中可能存在相同的问题。乍一看，这就是它的样子。当我有时间的时候，我会尝试更新我的答案。（同时，我建议您自己尝试一下，删除脚本第一部分中的for循环。）这有点不同，第一个循环是嵌套的循环，我该怎么做？该循环中没有附加内容。非常感谢您的帮助。我昨天已经修复了这个循环，但是现在导致问题的是在I然后j上循环的嵌套循环 rows_to_add = pd.DataFrame({ 'Lat': A['Latitude'].apply( lambda x: fn_CalcParcelID(x, ParcelSize) / 100000.0 ), 'Lon': A['Longitude'].apply( lambda x: fn_CalcParcelID(x, ParcelSize) / 100000.0 ), 'PSC': A['PSC'], 'UARFCN': UARFCN, 'SC_Avg_EcNo': A['EcNo'], 'SC_Avg_RSCP': A['RSCP'], }) B1 = B1.append(rows_to_add, ignore_index=True) A1_rows = scanner[scanner['PSC: Top #1 (UARFCN #01)'] != -1] A1 = pd.DataFrame({ 'Latitude': A1_rows['Latitude'], 'Longitude': A1_rows['Longitude'], 'PSC': A1_rows['PSC: Top #1 (UARFCN #01)'], 'EcNo': A1_rows['Sc Aggr Ec/Io (dB): Top #1 (UARFCN #01)'], 'RSCP': A1_rows['Sc Aggr Ec (dBm): Top #1 (UARFCN #01)'], })