Python/使用Pandas从文本文件读取和分组数据_Python_Regex_Pandas_Text_Nlp

Python/使用Pandas从文本文件读取和分组数据

python regex pandas text nlp

Python/使用Pandas从文本文件读取和分组数据,python,regex,pandas,text,nlp,Python,Regex,Pandas,Text,Nlp,我有一个文本文件，如下所示： Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına. Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim. Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah Sentence:4 P

我有一个文本文件，如下所示：

Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına.
Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim.
Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah
Sentence:4 Polarity:P bence hoş vakit geçirmek için seyredilebilir.
Sentence:5 Polarity:P hoş ve sevimli bir film.
Sentence:6 Polarity:O eşcinsellere pek sempati duymamakla beraber bu filmde sanki onları sevimli göstermeye çalışmışlar gibi geldi.
Sentence:7 Polarity:O itici bir film değildi sonuçta.
Sentence:8 Polarity:N seyrederken bu kadar sinirlendiğim film hatırlamıyorum.
Sentence:9 Polarity:O  J.Aniston ın hiç mi umut yok diye sorduğu sahnede kıracaktım televizyonu!
Sentence:10 Polarity:O kimse yazmamış ben yazıyım:)
Sentence:11 Polarity:P  güzel bi pazar günü şirin bi film izlemek isteyenler için çok güzel.

我想将此数据拆分为如下表：

Sentence_No - Sentence_Polarity - Sentence_txt
1 - N - 5puan verdim o da anistonun güzel yüzünün hatırına.
2 - N - son derece sıkıcı bir filim olduğunu söyleyebilirim.
3 - N - ..saçma bir konuyu nasılda filim yapmışlar maşallah
4 - P - bence hoş vakit geçirmek için seyredilebilir.

所以我想我需要从“句子：”、“极性”和最后一个txt部分后面得到这个部分。我希望这样，这样我就可以对数据进行分类

我编写了下面的代码，但它不适用于此目的：

df = pd.read_csv('SU-Movie-Reviews-Sentences.txt', lineterminator='\n', names=['Sentence_No', 'Sentence_Polarity' , 'Sentence_txt'])

我将此作为测试字符串：

test = """Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına.
Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim.
Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah
Sentence:4 Polarity:P bence hoş vakit geçirmek için seyredilebilir."""

使用Python的

re

模块，您可以使用

re.sub

替换所需的内容：

new_string = re.sub(r"Sentence:(\d+) Polarity:(\w)", r"\1 - \2 -", test)

为您提供所需的格式

\1

或

\2

分别是与组

（\d+）

匹配的数字或与

（\w）

匹配的字母

现在您可以使用新字符串了。

我将其作为测试字符串：

test = """Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına.
Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim.
Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah
Sentence:4 Polarity:P bence hoş vakit geçirmek için seyredilebilir."""