如何在Python中解析或清理我的语料库

如何在Python中解析或清理我的语料库,python,parsing,bert-language-model,Python,Parsing,Bert Language Model,所以我有这个荷兰语聊天信息的语料库,但我想删除括号内的用户名。我不太熟悉python中的解析。另外,我不确定解析是否是删除用户名的正确方法。我其实是在寻求建议。如何删除python中的用户名 这是.txt文件的外观: <Chickaaa> Heeerlijk zo'n kopje warme chocolademelk <ilmas-nador> 3ndak chi khtk <Chickaaa> met een sultana derbij <be

所以我有这个荷兰语聊天信息的语料库,但我想删除<>括号内的用户名。我不太熟悉python中的解析。另外,我不确定解析是否是删除用户名的正确方法。我其实是在寻求建议。如何删除python中的用户名

这是.txt文件的外观:

<Chickaaa> Heeerlijk zo'n kopje warme chocolademelk
<ilmas-nador> 3ndak  chi  khtk
<Chickaaa> met een sultana derbij
<bellamafia> hahah
<bellamafia> welkom terug chika
<Chickaaa> dankjee
<bellamafia> ga je nog naar school
<Chickaaa> jazeker
<bellamafia> ok
<Chickaaa> ben op stage nu
<Chickaaa> nog 7 uurtjes
<Chickaaa> pff
<bellamafia> wat doe je dan
<Chickaaa> management assistent
<bellamafia> ok
<Chickaaa> jij?
之后,我想标记如下句子:

marked_text = "[CLS] " + df + " [SEP]"
并以这种方式将其标记化:

# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)

如果您的示例具有代表性,只需从每行开头删除

重新导入
user=re.compile(r'^\s+')
以open(文件名)作为语料库:
text=[user.sub(“”,line)表示语料库中的行]
如果您想在Pandas中实现这一点,那么在当前代码中找到类似的方法来实现这一转换应该不难

解析通常指的是分离某种结构(如将句子分为主语、动词和宾语),而这是一种简单的机械转换

# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)