Python 3.x 通过python查找文本文件中的重复值

Python 3.x 通过python查找文本文件中的重复值,python-3.x,Python 3.x,寻找在文本文件中查找重复值的pythonic方法 1||mike||jones||38||first street||2018-05-01 2||michale||jones||38||8th street||2018-05-01 3||mich||jones||38||9th street||2018-05-01 4||mitchel||jones||38||10th street||2018-05-01 1||mike||jones||38||first street||2018-12-01

寻找在文本文件中查找重复值的pythonic方法

1||mike||jones||38||first street||2018-05-01
2||michale||jones||38||8th street||2018-05-01
3||mich||jones||38||9th street||2018-05-01
4||mitchel||jones||38||10th street||2018-05-01
1||mike||jones||38||first street||2018-12-01
是否尝试查找重复的id列并保留最新的?
我是否可以将输出插入id循环到列表中,然后检查值是否已经在列表中?

我们有非常强大的库熊猫,可以用最少的代码行执行分析操作

pandas基本上是一个开放源码的python包,它提供了许多用于数据分析的工具。熊猫的一些基本优势和用途如下:

  • 它可以以适合数据分析的方式呈现数据
  • 该软件包包含多种方法,可方便地进行数据过滤
  • 它有多种实用程序来执行输入/输出操作
  • 使用熊猫实现您想要实现的案例的实施

    首先使用
    pip安装pandas

    i/p>以给定格式输入数据的文本文件

    o/p>以csv格式输出所需的文本文件

    
    import pandas as pd
    from datetime import datetime
    
    with open("input") as file:     # Read input
        headers = ["id", "first_name", "last_name", "age", "address", "date"]
        dtypes = [int, str, str, int, str, datetime]
        data_frame = pd.read_csv(file, sep='[|][|]', names=headers, header=None,  parse_dates=['date'],
                                 engine="python")   # Read data into data frame from csv
        data_frame.sort_values(data_frame.date.name, ascending=False, inplace=True)     # Sort the values based on dates
        data_frame.drop_duplicates(subset=data_frame.id.name, inplace=True)     # Delete duplicate rows based on id
        data_frame.to_csv('output', sep=',', header=None)   # Generate outpu
    
    

    我们有非常强大的库Pandas,可以用最少的代码行执行分析操作

    pandas基本上是一个开放源码的python包,它提供了许多用于数据分析的工具。熊猫的一些基本优势和用途如下:

  • 它可以以适合数据分析的方式呈现数据
  • 该软件包包含多种方法,可方便地进行数据过滤
  • 它有多种实用程序来执行输入/输出操作
  • 使用熊猫实现您想要实现的案例的实施

    首先使用
    pip安装pandas

    i/p>以给定格式输入数据的文本文件

    o/p>以csv格式输出所需的文本文件

    
    import pandas as pd
    from datetime import datetime
    
    with open("input") as file:     # Read input
        headers = ["id", "first_name", "last_name", "age", "address", "date"]
        dtypes = [int, str, str, int, str, datetime]
        data_frame = pd.read_csv(file, sep='[|][|]', names=headers, header=None,  parse_dates=['date'],
                                 engine="python")   # Read data into data frame from csv
        data_frame.sort_values(data_frame.date.name, ascending=False, inplace=True)     # Sort the values based on dates
        data_frame.drop_duplicates(subset=data_frame.id.name, inplace=True)     # Delete duplicate rows based on id
        data_frame.to_csv('output', sep=',', header=None)   # Generate outpu
    
    

    你保留最新的是什么意思?是否要删除除最新副本以外的所有副本?请提供您想要获得的最终文本文件。也许这会有所帮助。对不起,最近我指的是使用最后一列的日期。例如,列0是id。在该文件中,我有重复的1,但在本例中,最后一个条目的日期比第一个id 1更为当前。所以我需要那个实例,而不是第一个实例。当然,它可以在文件中的任何地方,而不一定是最后一个条目。保留最新条目是什么意思?是否要删除除最新副本以外的所有副本?请提供您想要获得的最终文本文件。也许这会有所帮助。对不起,最近我指的是使用最后一列的日期。例如,列0是id。在该文件中,我有重复的1,但在本例中,最后一个条目的日期比第一个id 1更为当前。所以我需要那个实例,而不是第一个实例。但当然,它可以在文件中的任何位置,而不总是最后一个条目。