Python 从数据帧中删除特定字符

Python 从数据帧中删除特定字符,python,csv,pandas,Python,Csv,Pandas,我有一个csv文件,它似乎有几个值,这些值包含垃圾数据,看起来像:‡uu195èèè§Ãu195! 我已将该文件导入到数据框中。我怎样才能摆脱这些角色?我想删除包含此类字符的单元格内容,并改为输入标志值(类似于-99999)。该表具有混合数据类型 import pandas as pd import codecs import unicodedata import csv import StringIO testData = pd.read_csv('Data.csv', encoding="

我有一个csv文件,它似乎有几个值,这些值包含垃圾数据,看起来像:‡uu195èèè§Ãu195!

我已将该文件导入到数据框中。我怎样才能摆脱这些角色?我想删除包含此类字符的单元格内容,并改为输入标志值(类似于-99999)。该表具有混合数据类型

import pandas as pd
import codecs
import unicodedata
import csv
import StringIO

testData = pd.read_csv('Data.csv', encoding="iso-8859-1", engine='python')
/使用编码utf-8会给我一个关于无效起始字节的错误,使用默认引擎也不起作用/


有什么建议吗?

如果你知道你愿意接受哪些字符,你可以使用正则表达式来过滤你的值,比如:

testData['stringcol'].where(testData['stringcol'].str.contains('[^A-Za-z0-9\s]'), 
-999999)

文件的编码是什么?不确定。我以excel csv的形式得到了它。有没有办法确定编码方式?你可以尝试使用各种“编码猜测器”。但是真正的编码是当你收到一个文件时应该告诉你的事情(例如,如果你从某处下载它,你得到它的地方应该提到编码是什么)。