Python 3.x 通过python查找文本文件中的重复值_Python 3.x

Python 3.x 通过python查找文本文件中的重复值

python-3.x

Python 3.x 通过python查找文本文件中的重复值,python-3.x,Python 3.x,寻找在文本文件中查找重复值的pythonic方法 1||mike||jones||38||first street||2018-05-01 2||michale||jones||38||8th street||2018-05-01 3||mich||jones||38||9th street||2018-05-01 4||mitchel||jones||38||10th street||2018-05-01 1||mike||jones||38||first street||2018-12-01

寻找在文本文件中查找重复值的pythonic方法

1||mike||jones||38||first street||2018-05-01
2||michale||jones||38||8th street||2018-05-01
3||mich||jones||38||9th street||2018-05-01
4||mitchel||jones||38||10th street||2018-05-01
1||mike||jones||38||first street||2018-12-01

是否尝试查找重复的id列并保留最新的？

我是否可以将输出插入id循环到列表中，然后检查值是否已经在列表中？

我们有非常强大的库熊猫，可以用最少的代码行执行分析操作
pandas基本上是一个开放源码的python包，它提供了许多用于数据分析的工具。熊猫的一些基本优势和用途如下：

它可以以适合数据分析的方式呈现数据

该软件包包含多种方法，可方便地进行数据过滤

它有多种实用程序来执行输入/输出操作
使用熊猫实现您想要实现的案例的实施
首先使用
pip安装pandas
i/p>以给定格式输入数据的文本文件
o/p>以csv格式输出所需的文本文件

import pandas as pd from datetime import datetime with open("input") as file: # Read input headers = ["id", "first_name", "last_name", "age", "address", "date"] dtypes = [int, str, str, int, str, datetime] data_frame = pd.read_csv(file, sep='[|][|]', names=headers, header=None, parse_dates=['date'], engine="python") # Read data into data frame from csv data_frame.sort_values(data_frame.date.name, ascending=False, inplace=True) # Sort the values based on dates data_frame.drop_duplicates(subset=data_frame.id.name, inplace=True) # Delete duplicate rows based on id data_frame.to_csv('output', sep=',', header=None) # Generate outpu

我们有非常强大的库Pandas，可以用最少的代码行执行分析操作
pandas基本上是一个开放源码的python包，它提供了许多用于数据分析的工具。熊猫的一些基本优势和用途如下：

它可以以适合数据分析的方式呈现数据

该软件包包含多种方法，可方便地进行数据过滤

它有多种实用程序来执行输入/输出操作
使用熊猫实现您想要实现的案例的实施
首先使用
pip安装pandas
i/p>以给定格式输入数据的文本文件
o/p>以csv格式输出所需的文本文件

import pandas as pd from datetime import datetime with open("input") as file: # Read input headers = ["id", "first_name", "last_name", "age", "address", "date"] dtypes = [int, str, str, int, str, datetime] data_frame = pd.read_csv(file, sep='[|][|]', names=headers, header=None, parse_dates=['date'], engine="python") # Read data into data frame from csv data_frame.sort_values(data_frame.date.name, ascending=False, inplace=True) # Sort the values based on dates data_frame.drop_duplicates(subset=data_frame.id.name, inplace=True) # Delete duplicate rows based on id data_frame.to_csv('output', sep=',', header=None) # Generate outpu

你保留最新的是什么意思？是否要删除除最新副本以外的所有副本？请提供您想要获得的最终文本文件。也许这会有所帮助。对不起，最近我指的是使用最后一列的日期。例如，列0是id。在该文件中，我有重复的1，但在本例中，最后一个条目的日期比第一个id 1更为当前。所以我需要那个实例，而不是第一个实例。当然，它可以在文件中的任何地方，而不一定是最后一个条目。保留最新条目是什么意思？是否要删除除最新副本以外的所有副本？请提供您想要获得的最终文本文件。也许这会有所帮助。对不起，最近我指的是使用最后一列的日期。例如，列0是id。在该文件中，我有重复的1，但在本例中，最后一个条目的日期比第一个id 1更为当前。所以我需要那个实例，而不是第一个实例。但当然，它可以在文件中的任何位置，而不总是最后一个条目。