Python 使用文本:将CSV文件中的所有字母更改为小写

Python 使用文本:将CSV文件中的所有字母更改为小写,python,csv,Python,Csv,我正在使用一个.txt数据集,我将其作为csv文件读入 data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str) print data.head() 它打印: 0 MUSIC Today at the recording studio, John... 1 POLITICS The tensions inside the government h

我正在使用一个.txt数据集,我将其作为csv文件读入

data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str)
print data.head()
它打印:

0  MUSIC  Today at the recording studio, John...
1  POLITICS  The tensions inside the government have...
2  NEWS  The new pictures of NASA show...
我想做的是把所有的字母从文本改成小写。因此,例如,“美国宇航局展览的新图片…”将成为“美国宇航局展览的新图片…”,但“新闻”仍然是“新闻”的大写字母


有什么建议吗?

您可以申请lambda,它可以帮您做到这一点:

data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str).apply(lambda x: x.astype(str).str.lower())
使用示例数据,您将看到:

>>> import pandas as pd
>>> data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str).apply(lambda x: x.astype(str).str.lower())
>>> data.head()
   category                                        text
0     music      today at the recording studio, john...
1  politics  the tensions inside the government have...
2      news            the new pictures of nasa show...

这太棒了,但它也降低了“文本、音乐、新闻”。另一件事:我实际使用的文本是西里尔文,所以现在我看到我所尝试的一切都失败了,完全是因为这个。谢谢你的帮助!:)@你的文件名让我觉得你在训练一个机器学习模型。你的小写训练课程不应该改变任何事情。我以为小写字母可以处理unicode,但也许我错了。是的,我正在训练分类文本的分类器。你不认为某些单词是否包含大写字母与count vectorizer和tf idf有区别吗?@Saremiona tf idf非常关心单词是否大写。就算法而言,它们是不同的词。这就是正常化(在这种情况下为下套管)如此重要的原因。