Machine learning 在文本中寻找相似模式

Machine learning 在文本中寻找相似模式,machine-learning,nlp,Machine Learning,Nlp,我有一个包含文本数据的列。示例如下所示 column1 Apple Mango Grape banana Apple Mango Fruit 如果你看看数据,苹果紧随其后的是芒果。或者可以说,只要苹果出现,下一个

我有一个包含文本数据的列。示例如下所示

                 column1
                  Apple
                  Mango
                  Grape
                  banana
                  Apple
                  Mango
                  Fruit
如果你看看数据,苹果紧随其后的是芒果。或者可以说,只要苹果出现,下一个芒果就会出现。这样的匹配可能不止一个。这是怎么找到的。我知道nlp中的文本相似性查找技术。但如何处理这种情况。请提供任何建议。

不使用ML:

col = ['Apple', 'Mango', 'Grape', 'banana', 'Apple', 'Mango', 'Fruit']
for wrd in set(col):
    indices=[i for i, x in enumerate(col) if x == wrd]
    if len(col)-1 in indices:
        continue #Last element cannot be followed by anything
    elif len(indices) ==1:
        continue #Do we want single elements? I suppose not
    elif len(set([col[i+1] for i in indices])) ==1:
        print(wrd+" is always followed by "+col[indices[0]+1])

> Apple is always followed by Mango

看起来你在寻找Bigram,比如在或疑问句中如果你在寻找100%的可预测性,那么这不是一个ML问题,而是一个简单的编程。如果您正在寻找以下内容,那么您需要了解您提到的NLP技术。无论哪种方式,请将此问题细化为合适的StackOverflow帖子。欢迎来到StackOverflow。请阅读并遵循帮助文档中的发布指南。在这里申请。