如何在Python中解析或清理我的语料库_Python_Parsing_Bert Language Model

如何在Python中解析或清理我的语料库

python parsing

如何在Python中解析或清理我的语料库,python,parsing,bert-language-model,Python,Parsing,Bert Language Model,所以我有这个荷兰语聊天信息的语料库，但我想删除括号内的用户名。我不太熟悉python中的解析。另外，我不确定解析是否是删除用户名的正确方法。我其实是在寻求建议。如何删除python中的用户名这是.txt文件的外观： <Chickaaa> Heeerlijk zo'n kopje warme chocolademelk <ilmas-nador> 3ndak chi khtk <Chickaaa> met een sultana derbij <be

所以我有这个荷兰语聊天信息的语料库，但我想删除<>括号内的用户名。我不太熟悉python中的解析。另外，我不确定解析是否是删除用户名的正确方法。我其实是在寻求建议。如何删除python中的用户名

这是.txt文件的外观：

<Chickaaa> Heeerlijk zo'n kopje warme chocolademelk
<ilmas-nador> 3ndak  chi  khtk
<Chickaaa> met een sultana derbij
<bellamafia> hahah
<bellamafia> welkom terug chika
<Chickaaa> dankjee
<bellamafia> ga je nog naar school
<Chickaaa> jazeker
<bellamafia> ok
<Chickaaa> ben op stage nu
<Chickaaa> nog 7 uurtjes
<Chickaaa> pff
<bellamafia> wat doe je dan
<Chickaaa> management assistent
<bellamafia> ok
<Chickaaa> jij?

之后，我想标记如下句子：

marked_text = "[CLS] " + df + " [SEP]"

并以这种方式将其标记化：

# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)

如果您的示例具有代表性，只需从每行开头删除

重新导入
user=re.compile（r'^\s+'）
以open（文件名）作为语料库：
text=[user.sub（“”，line）表示语料库中的行]

如果您想在Pandas中实现这一点，那么在当前代码中找到类似的方法来实现这一转换应该不难

解析通常指的是分离某种结构（如将句子分为主语、动词和宾语），而这是一种简单的机械转换

# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)