Nlp 我如何对后面有位置号的店名进行分组?

Nlp 我如何对后面有位置号的店名进行分组?,nlp,text-mining,Nlp,Text Mining,我有一个店铺名称列表,如下所示: Mcdonald 54875 Mcdonald 654788 Mcdonald 5478654 124 Mcdonald 748415 Mcdonald 12213 34# ABC CHICKEN 45645 4A ABC CHICKEN 5464564 ABC CHICKEN 3474#99 ABC CHICKEN '#455 ABC CHICKEN #7885 etc. 我想创建一个列来匹配餐厅名称,如下所示 Mcdonald Mcdonald Mcdon

我有一个店铺名称列表,如下所示:

Mcdonald 54875
Mcdonald 654788
Mcdonald 5478654
124 Mcdonald 748415
Mcdonald 12213
34# ABC CHICKEN 45645
4A ABC CHICKEN 5464564
ABC CHICKEN 3474#99
ABC CHICKEN '#455
ABC CHICKEN #7885
etc.
我想创建一个列来匹配餐厅名称,如下所示

Mcdonald
Mcdonald
Mcdonald
Mcdonald
Mcdonald
ABC CHICKEN
ABC CHICKEN
ABC CHICKEN
ABC CHICKEN
ABC CHICKEN
etc.

是否有任何可能的方法自动执行此操作?当然,我不能得到所有我想要的名字。列表太长

您可以使用正则表达式。例如:

s = """Mcdonald 54875
Mcdonald 654788
Mcdonald 5478654
124 Mcdonald 748415
Mcdonald 12213
34# ABC CHICKEN 45645
4A ABC CHICKEN 5464564
ABC CHICKEN 3474#99
ABC CHICKEN '#455
ABC CHICKEN #7885"""

import re
ans = []
re1=re.compile("(?<![0-9])[a-zA-Z]+")
for l in s.split('\n'):
    res = re1.findall(l)
    ans.append(" ".join(res))

for a in ans:
    print(a)

麦当劳54875 麦当劳654788 麦当劳5478654 124748415 麦当劳12213 34#ABC鸡45645 4A ABC鸡5464564 ABC鸡3474#99 ABC鸡#455 ABC鸡#7885“ 进口稀土 ans=[]
re1=re.compile(“(?你怎么知道餐厅的名称?你有一些预定义的列表,或者你只是想去掉数字?我没有预定义的列表,其中一些不仅包含数字,而且还包含字符。有没有可能的方法来猜测主名称,比如频率?如果一些名称包含字符呢?例如,Mcdonald qste,麦当劳qstc。ABC鸡肉a01,ABC鸡肉a02,ABC鸡肉rff?它还能用吗?