使用性能更好的python创建数据集列表

使用性能更好的python创建数据集列表,python,list,performance,Python,List,Performance,我有一个由C/C++函数作为行组成的数据集。我想得到每个函数,将它们拆分,并创建一个单词列表(a)。并将该列表A放到列表B中,作为python中的列表列表 到目前为止,我一直在使用它,但我的数据集有128312项,而且速度很慢 我们能改进这个吗?如果是,我愿意接受建议 functionSourceDF = hdf.get('functionSource') . . . FSDarray = [] for i in range(0,size): FSDarray.append(func

我有一个由C/C++函数作为行组成的数据集。我想得到每个函数,将它们拆分,并创建一个单词列表(a)。并将该列表A放到列表B中,作为python中的列表列表

到目前为止,我一直在使用它,但我的数据集有128312项,而且速度很慢

我们能改进这个吗?如果是,我愿意接受建议

functionSourceDF = hdf.get('functionSource')

.
.
.

FSDarray = []
for i in range(0,size):
    FSDarray.append(functionSourceDF[i].split(" "))
FSDarray = np.array(FSDarray)


谢谢。

您实际上可以使用numpy解决此类问题

import numpy as np
a = ["This is a test", "of numpy", "splitting words"]
a = np.array(a)
a = np.char.split(a)
print(a)
输出

[列表(['This','is','a','test'])列表(['of','numpy']))
列表(['spliting','words'])]

您实际上可以使用numpy解决此类问题

import numpy as np
a = ["This is a test", "of numpy", "splitting words"]
a = np.array(a)
a = np.char.split(a)
print(a)
输出

[列表(['This','is','a','test'])列表(['of','numpy']))
列表(['spliting','words'])]

你知道你在哪里消磨时间吗?在分裂中?在从hdf数据结构获取元素时?我会先尝试分析我的代码。通过使用探查器,或者一次只删除一部分,看看对性能有什么影响。你知道你在哪里花费时间吗?在分裂中?在从hdf数据结构获取元素时?我会先尝试分析我的代码。要么使用分析器,要么一次只移除一个部件,看看对性能有什么影响。