Nlp 切分与搭配_Nlp_Data Mining_Text Mining_Text Segmentation_Collocation

Nlp 切分与搭配

nlp

Nlp 切分与搭配,nlp,data-mining,text-mining,text-segmentation,collocation,Nlp,Data Mining,Text Mining,Text Segmentation,Collocation,我正在为我正在实现的两个特性寻找新的想法 1.）文本分割功能： Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am usin

我正在为我正在实现的两个特性寻找新的想法

1.）文本分割功能：

Ex: 
                    User Query:                 Resolved Query:
                    -----------                 ---------------
            It has lotsofwordstogether   It has lots of words together

    I am using normal recursion or DP solution using unigrams probability.

Ex:
        User Query:                       Resolved Query:
        ----------                      ---------------
    I like t shirts in Wal mart       I like t-shirts in Walmart

2.）搭配类型：

Ex: 
                    User Query:                 Resolved Query:
                    -----------                 ---------------
            It has lotsofwordstogether   It has lots of words together

    I am using normal recursion or DP solution using unigrams probability.

Ex:
        User Query:                       Resolved Query:
        ----------                      ---------------
    I like t shirts in Wal mart       I like t-shirts in Walmart

不知道该怎么做。我目前唯一的想法是将句子标记化，并将无意义的标记与前面的标记或下一个标记结合起来，形成可以对照单字检查的单词

这些解决方案对于我的需求来说很慢（尤其是第一个）。

我想同时使用这些功能。寻找更好的想法。

我想标准方法包括字母n-gram

因此，“沃尔玛”将成为“沃尔玛”、“alm”、“lma”、“mar”艺术。”

对于问题1），找到单词边界，您可以使用现有的算法来标记东亚语言。它们通常涉及应用隐马尔可夫模型：

我还可以考虑应用CKY算法（用于解析上下文无关语法），特别是如果你能找到一本提供音节切分和音节清单的词典

问题2），我认为，只是拼写纠正的一个例子。就像对待其他角色一样对待空格

我会发布更多的链接，但我没有足够的声誉

这些问题不容易，祝你好运

我是这个领域的新手。你能指出一些关于这方面的书或网上资料吗？t恤衫怎么能用字母n-grams来表示呢？