如何使用NLP技术筛选习语并将短语与其他常用短语区分开来？_Nlp_Phrase_Hidden Markov Models

如何使用NLP技术筛选习语并将短语与其他常用短语区分开来？

nlp

如何使用NLP技术筛选习语并将短语与其他常用短语区分开来？,nlp,phrase,hidden-markov-models,Nlp,Phrase,Hidden Markov Models,有哪些技巧可以区分普通短语（如“to the”、“and the”）与固定短语和成语（如“pick up”、“fall in love”、“red herring”、“dead end”）之间的区别有没有哪种技术即使没有字典也能成功，比如HMMs在大型语料库上训练的统计方法或者有没有一些启发性的方法，比如忽略或降低可能与任何单词同时出现的“杂乱”单词，而不是单独出现或出现在特定的一组有限的惯用短语中的单词如果有这样的启发法，我们如何考虑固定短语和口头短语，它们确实包含了杂乱的词，例如“打闹

有哪些技巧可以区分普通短语（如“to the”、“and the”）与固定短语和成语（如“pick up”、“fall in love”、“red herring”、“dead end”）之间的区别

有没有哪种技术即使没有字典也能成功，比如HMMs在大型语料库上训练的统计方法

或者有没有一些启发性的方法，比如忽略或降低可能与任何单词同时出现的“杂乱”单词，而不是单独出现或出现在特定的一组有限的惯用短语中的单词

如果有这样的启发法，我们如何考虑固定短语和口头短语，它们确实包含了杂乱的词，例如“打闹”、“吃起来”、“坐起来”、“想起来”中的“起来”

更新

我在网上发现了一篇有趣的文章：

你在寻找搭配检测吗

看看曼宁和舒茨（Manning&Schütze）的优秀著作《自然语言处理的基础》中的一章。

搭配比习语的范围更广，但比普通短语的范围更窄，因此感谢链接。