List 删除xls文件中的重复项
我正在尝试编写一个python脚本,它能够获取xls文件中每一行的内容,从中提取一个单词列表(使用rex具有特定模式),并将该列表与当前行之后所有行中提取的所有列表进行比较,直到文件结束。并删除具有相同列表的行。 注意,两个列表中的单词可能是无序的,但它们的内容仍然相等List 删除xls文件中的重复项,list,loops,duplicates,xls,List,Loops,Duplicates,Xls,我正在尝试编写一个python脚本,它能够获取xls文件中每一行的内容,从中提取一个单词列表(使用rex具有特定模式),并将该列表与当前行之后所有行中提取的所有列表进行比较,直到文件结束。并删除具有相同列表的行。 注意,两个列表中的单词可能是无序的,但它们的内容仍然相等 非常感谢您的帮助。这个问题非常类似于从未排序的数组中删除类似的元素。您需要做的是根据与正则表达式匹配的单词数对所有行进行散列,然后在每个桶中比较相似度 您使代码也具有相当的可伸缩性 buckets={} fo
非常感谢您的帮助。这个问题非常类似于从未排序的数组中删除类似的元素。您需要做的是根据与正则表达式匹配的单词数对所有行进行散列,然后在每个桶中比较相似度 您使代码也具有相当的可伸缩性
buckets={}
for row in rows:
if bucket[row.length] is None:
bucket[row.length]={}
bucket[row.length].append(row)
#now do your matching
for bucket in buckets:
#match and delete.