Python 压缩大型文本文件

Python 压缩大型文本文件,python,Python,我想删除python中的重复字符串,只保留一个字符串。我提到了这个例子 例如:输入 鲍勃123 1DB JIM 456 3DB AX DAVE 789 1DB 鲍勃123 1DB JIM 456 3DB AX DAVE 789 1DB BOB 123 1DB额外位 输出: JIM 456 3DB AX DAVE 789 1DB BOB 123 1DB额外位 但是我应该在python中实现类似的代码,而不使用诸如sorted()、line.strip()和line.startswith()之类的

我想删除python中的重复字符串,只保留一个字符串。我提到了这个例子

例如:输入
鲍勃123 1DB
JIM 456 3DB AX
DAVE 789 1DB
鲍勃123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB额外位

输出:
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB额外位


但是我应该在python中实现类似的代码,而不使用诸如sorted()、line.strip()和line.startswith()之类的内置函数。它应该使用读、写等基本功能。此外,输出还应显示行号以及递增顺序的字符串

我可能会这样实现它:

  • 创建一个字典来保存已找到的字符串。将该字典初始化为空
  • 迭代文件的每一行。检查该行是否在字典中
  • 如果这一行在字典里,什么也不要做
  • 如果该行不在字典中,则输出该行,并将其添加到字典中

  • 不清楚你所说的“增加订单”是什么意思。我看不出您的示例输出以任何方式递增。

    然后尝试先实现它。我知道您在询问python。但是如果你只是想这样做,而你恰好是在Linux下,那么命令行:
    sort filename | uniq
    将为你做这项工作。@gongzhitaao:那不会处理额外的位。@DSM Oops,错过了。对不起:)