如何使用NLP技术筛选习语并将短语与其他常用短语区分开来?

如何使用NLP技术筛选习语并将短语与其他常用短语区分开来?,nlp,phrase,hidden-markov-models,Nlp,Phrase,Hidden Markov Models,有哪些技巧可以区分普通短语(如“to the”、“and the”)与固定短语和成语(如“pick up”、“fall in love”、“red herring”、“dead end”)之间的区别 有没有哪种技术即使没有字典也能成功,比如HMMs在大型语料库上训练的统计方法 或者有没有一些启发性的方法,比如忽略或降低可能与任何单词同时出现的“杂乱”单词,而不是单独出现或出现在特定的一组有限的惯用短语中的单词 如果有这样的启发法,我们如何考虑固定短语和口头短语,它们确实包含了杂乱的词,例如“打闹

有哪些技巧可以区分普通短语(如“to the”、“and the”)与固定短语和成语(如“pick up”、“fall in love”、“red herring”、“dead end”)之间的区别

有没有哪种技术即使没有字典也能成功,比如HMMs在大型语料库上训练的统计方法

或者有没有一些启发性的方法,比如忽略或降低可能与任何单词同时出现的“杂乱”单词,而不是单独出现或出现在特定的一组有限的惯用短语中的单词

如果有这样的启发法,我们如何考虑固定短语和口头短语,它们确实包含了杂乱的词,例如“打闹”、“吃起来”、“坐起来”、“想起来”中的“起来”

更新


我在网上发现了一篇有趣的文章:

你在寻找搭配检测吗


看看曼宁和舒茨(Manning&Schütze)的优秀著作《自然语言处理的基础》中的一章。

搭配比习语的范围更广,但比普通短语的范围更窄,因此感谢链接。