Python 使用正则表达式删除特定单词之间的单词

Python 使用正则表达式删除特定单词之间的单词,python,nlp,data-cleaning,re,Python,Nlp,Data Cleaning,Re,我的数据包含以下内容: → muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了 推aitt :台東恆春間登陸不代表北台不會有強風. → teras: 7/7 酋長在這個距離的時候,北部山區都超過大豪雨標準了 台東恆春間登陸不代表北台不會有強風. 7/7 我希望我的数据如下所示: → muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了 推aitt :台東恆春間登陸不代表北台不會有強風. → teras: 7/7 酋長在這個距離的時候,北部山區都超

我的数据包含以下内容:

→ muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7/7
酋長在這個距離的時候,北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7/7
我希望我的数据如下所示:

→ muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7/7
酋長在這個距離的時候,北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7/7
我已经试过一些regex
re.sub(r'^推:$', '', x) 
但我很确定这种方式是错误的


正则表达式是否与汉字或汉字一起工作→ 符号?

您可以尝试类似的方法,它将删除
可用于中文字符:

import re

txt = """
→ muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7/7

"""

pattern = r'^.*:'
parsed_txt = re.sub(pattern, '', txt, flags=re.MULTILINE)

print(parsed_txt)
>>>"
酋長在這個距離的時候,北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7/7"

谢谢你的回答,这对我很有效。但对于某些行,由于末尾附近有
,所以剪切了太多的文本。有没有办法将
仅限于第一次出现?你可以在
之前指定一种特定的格式,例如,在句子的开头总是arrow+word+:还是word+space+:事实上,我的数据并不总是这种格式。但是我尝试了
r'^.*?:'
,效果非常好(虽然我丢失了一些不符合格式的文本,并且碰巧有
)是否有更好的方法来处理这个问题,但我现在对结果也很满意。