使用性能更好的python创建数据集列表_Python_List_Performance

使用性能更好的python创建数据集列表

python list performance

使用性能更好的python创建数据集列表,python,list,performance,Python,List,Performance,我有一个由C/C++函数作为行组成的数据集。我想得到每个函数，将它们拆分，并创建一个单词列表（a）。并将该列表A放到列表B中，作为python中的列表列表到目前为止，我一直在使用它，但我的数据集有128312项，而且速度很慢我们能改进这个吗？如果是，我愿意接受建议 functionSourceDF = hdf.get('functionSource') . . . FSDarray = [] for i in range(0,size): FSDarray.append(func

我有一个由C/C++函数作为行组成的数据集。我想得到每个函数，将它们拆分，并创建一个单词列表（a）。并将该列表A放到列表B中，作为python中的列表列表

到目前为止，我一直在使用它，但我的数据集有128312项，而且速度很慢

我们能改进这个吗？如果是，我愿意接受建议

functionSourceDF = hdf.get('functionSource')

.
.
.

FSDarray = []
for i in range(0,size):
    FSDarray.append(functionSourceDF[i].split(" "))
FSDarray = np.array(FSDarray)

谢谢。

您实际上可以使用numpy解决此类问题

import numpy as np
a = ["This is a test", "of numpy", "splitting words"]
a = np.array(a)
a = np.char.split(a)
print(a)

输出

[列表（['This'，'is'，'a'，'test']）列表（['of'，'numpy']））

列表（['spliting'，'words']）]

您实际上可以使用numpy解决此类问题

import numpy as np
a = ["This is a test", "of numpy", "splitting words"]
a = np.array(a)
a = np.char.split(a)
print(a)

输出

[列表（['This'，'is'，'a'，'test']）列表（['of'，'numpy']））

列表（['spliting'，'words']）]

你知道你在哪里消磨时间吗？在分裂中？在从hdf数据结构获取元素时？我会先尝试分析我的代码。通过使用探查器，或者一次只删除一部分，看看对性能有什么影响。你知道你在哪里花费时间吗？在分裂中？在从hdf数据结构获取元素时？我会先尝试分析我的代码。要么使用分析器，要么一次只移除一个部件，看看对性能有什么影响。