Python 使用正则表达式删除特定单词之间的单词
我的数据包含以下内容:Python 使用正则表达式删除特定单词之间的单词,python,nlp,data-cleaning,re,Python,Nlp,Data Cleaning,Re,我的数据包含以下内容: → muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了 推aitt :台東恆春間登陸不代表北台不會有強風. → teras: 7/7 酋長在這個距離的時候,北部山區都超過大豪雨標準了 台東恆春間登陸不代表北台不會有強風. 7/7 我希望我的数据如下所示: → muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了 推aitt :台東恆春間登陸不代表北台不會有強風. → teras: 7/7 酋長在這個距離的時候,北部山區都超
→ muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了
推aitt :台東恆春間登陸不代表北台不會有強風.
→ teras: 7/7
酋長在這個距離的時候,北部山區都超過大豪雨標準了
台東恆春間登陸不代表北台不會有強風.
7/7
我希望我的数据如下所示:
→ muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了
推aitt :台東恆春間登陸不代表北台不會有強風.
→ teras: 7/7
酋長在這個距離的時候,北部山區都超過大豪雨標準了
台東恆春間登陸不代表北台不會有強風.
7/7
我已经试过一些regexre.sub(r'^推:$', '', x)
但我很确定这种方式是错误的
正则表达式是否与汉字或汉字一起工作→ 符号?您可以尝试类似的方法,它将删除
:
和→代码>可用于中文字符:
import re
txt = """
→ muching :酋長在這個距離的時候,北部山區都超過大豪雨標準了
推aitt :台東恆春間登陸不代表北台不會有強風.
→ teras: 7/7
"""
pattern = r'^.*:'
parsed_txt = re.sub(pattern, '', txt, flags=re.MULTILINE)
print(parsed_txt)
>>>"
酋長在這個距離的時候,北部山區都超過大豪雨標準了
台東恆春間登陸不代表北台不會有強風.
7/7"
谢谢你的回答,这对我很有效。但对于某些行,由于末尾附近有:
,所以剪切了太多的文本。有没有办法将:
仅限于第一次出现?你可以在:
之前指定一种特定的格式,例如,在句子的开头总是arrow+word+:还是word+space+:事实上,我的数据并不总是这种格式。但是我尝试了r'^.*?:'
,效果非常好(虽然我丢失了一些不符合格式的文本,并且碰巧有:
)是否有更好的方法来处理这个问题,但我现在对结果也很满意。