Python 当语法(IE紫色或紫色)错误时,如何对csv文件中的颜色(蓝色、绿色、紫色、红色)进行分组?
当有几种情况下语法(如大小写,拼写-紫色或紫色)错误时,如何使用Python对csv文件(50000行,下面的示例)中的颜色(蓝色、绿色、紫色、红色)进行分组?谢谢你能给我的帮助Python 当语法(IE紫色或紫色)错误时,如何对csv文件中的颜色(蓝色、绿色、紫色、红色)进行分组?,python,csv,pandas,Python,Csv,Pandas,当有几种情况下语法(如大小写,拼写-紫色或紫色)错误时,如何使用Python对csv文件(50000行,下面的示例)中的颜色(蓝色、绿色、紫色、红色)进行分组?谢谢你能给我的帮助 Blue 5642 Purpal 5640 red 5610 BLUE 5583 Red 5541 green 5523 Purple 5503 Green 5491 RED 5467 ...... 您需要清理数据。显然,这对于数据所
Blue 5642
Purpal 5640
red 5610
BLUE 5583
Red 5541
green 5523
Purple 5503
Green 5491
RED 5467
......
您需要清理数据。显然,这对于数据所处的任何情况都是独一无二的,但是如果您试图识别拼写错误的颜色名称,那么可能会过滤数据框以显示所有不是蓝色、绿色、紫色或红色的内容 您可以执行以下操作来识别不匹配,然后找出如何修复它们
df.Color = df.Color.str.lower()
colors = ['blue', 'red', 'purple', 'green']
misspellings = df.Color[~df.Color.isin(colors)].values
print(misspellings)
['purpal']
从那里,您可以单独修复每个条目,或者编写一些东西来智能地修复它们。这取决于你,但一旦你做到了这一点,你可以正常分组。要修复“purpal”的一个或多个条目,您可以执行以下操作:
df.loc[df.Color == 'purpal', 'Color'] = 'purple'
在分组之前,你必须清理你的数据,即清除PURPAL或任何其他类似的损坏。回答得好!加一。您好@GrrThanks@Grr,非常感谢:)