Nlp 切分与搭配

Nlp 切分与搭配,nlp,data-mining,text-mining,text-segmentation,collocation,Nlp,Data Mining,Text Mining,Text Segmentation,Collocation,我正在为我正在实现的两个特性寻找新的想法 1.)文本分割功能: Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am usin

我正在为我正在实现的两个特性寻找新的想法

1.)文本分割功能:

Ex: 
                    User Query:                 Resolved Query:
                    -----------                 ---------------
            It has lotsofwordstogether   It has lots of words together

    I am using normal recursion or DP solution using unigrams probability.
Ex:
        User Query:                       Resolved Query:
        ----------                      ---------------
    I like t shirts in Wal mart       I like t-shirts in Walmart
2.)搭配类型:

Ex: 
                    User Query:                 Resolved Query:
                    -----------                 ---------------
            It has lotsofwordstogether   It has lots of words together

    I am using normal recursion or DP solution using unigrams probability.
Ex:
        User Query:                       Resolved Query:
        ----------                      ---------------
    I like t shirts in Wal mart       I like t-shirts in Walmart
不知道该怎么做。我目前唯一的想法是将句子标记化,并将无意义的标记与前面的标记或下一个标记结合起来,形成可以对照单字检查的单词

这些解决方案对于我的需求来说很慢(尤其是第一个)。
我想同时使用这些功能。寻找更好的想法。

我想标准方法包括字母n-gram

因此,“沃尔玛”将成为“沃尔玛”、“alm”、“lma”、“mar”艺术。”

对于问题1),找到单词边界,您可以使用现有的算法来标记东亚语言。它们通常涉及应用隐马尔可夫模型:

我还可以考虑应用CKY算法(用于解析上下文无关语法),特别是如果你能找到一本提供音节切分和音节清单的词典

问题2),我认为,只是拼写纠正的一个例子。就像对待其他角色一样对待空格

我会发布更多的链接,但我没有足够的声誉


这些问题不容易,祝你好运

我是这个领域的新手。你能指出一些关于这方面的书或网上资料吗?t恤衫怎么能用字母n-grams来表示呢?