Python 使用正则表达式删除特定单词之间的单词_Python_Nlp_Data Cleaning_Re

Python 使用正则表达式删除特定单词之间的单词

python nlp

Python 使用正则表达式删除特定单词之间的单词,python,nlp,data-cleaning,re,Python,Nlp,Data Cleaning,Re,我的数据包含以下内容： → muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了推aitt :台東恆春間登陸不代表北台不會有強風. → teras: 7／7 酋長在這個距離的時候，北部山區都超過大豪雨標準了台東恆春間登陸不代表北台不會有強風. 7／7 我希望我的数据如下所示： → muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了推aitt :台東恆春間登陸不代表北台不會有強風. → teras: 7／7 酋長在這個距離的時候，北部山區都超

我的数据包含以下内容：

→ muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7／7

酋長在這個距離的時候，北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7／7

我希望我的数据如下所示：

→ muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7／7

酋長在這個距離的時候，北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7／7

我已经试过一些regex

re.sub（r'^推:$', '', x）

但我很确定这种方式是错误的

正则表达式是否与汉字或汉字一起工作→ 符号？

您可以尝试类似的方法，它将删除

：

和

→可用于中文字符：
import re

txt = """
→ muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7／7

"""

pattern = r'^.*:'
parsed_txt = re.sub(pattern, '', txt, flags=re.MULTILINE)

print(parsed_txt)
>>>"
酋長在這個距離的時候，北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7／7"

谢谢你的回答，这对我很有效。但对于某些行，由于末尾附近有：
，所以剪切了太多的文本。有没有办法将：
仅限于第一次出现？你可以在：
之前指定一种特定的格式，例如，在句子的开头总是arrow+word+：还是word+space+：事实上，我的数据并不总是这种格式。但是我尝试了r'^.*？：'
，效果非常好（虽然我丢失了一些不符合格式的文本，并且碰巧有：
）是否有更好的方法来处理这个问题，但我现在对结果也很满意。