Nlp 切分与搭配
我正在为我正在实现的两个特性寻找新的想法 1.)文本分割功能:Nlp 切分与搭配,nlp,data-mining,text-mining,text-segmentation,collocation,Nlp,Data Mining,Text Mining,Text Segmentation,Collocation,我正在为我正在实现的两个特性寻找新的想法 1.)文本分割功能: Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am usin
Ex:
User Query: Resolved Query:
----------- ---------------
It has lotsofwordstogether It has lots of words together
I am using normal recursion or DP solution using unigrams probability.
Ex:
User Query: Resolved Query:
---------- ---------------
I like t shirts in Wal mart I like t-shirts in Walmart
2.)搭配类型:
Ex:
User Query: Resolved Query:
----------- ---------------
It has lotsofwordstogether It has lots of words together
I am using normal recursion or DP solution using unigrams probability.
Ex:
User Query: Resolved Query:
---------- ---------------
I like t shirts in Wal mart I like t-shirts in Walmart
不知道该怎么做。我目前唯一的想法是将句子标记化,并将无意义的标记与前面的标记或下一个标记结合起来,形成可以对照单字检查的单词
这些解决方案对于我的需求来说很慢(尤其是第一个)。
我想同时使用这些功能。寻找更好的想法。我想标准方法包括字母n-gram 因此,“沃尔玛”将成为“沃尔玛”、“alm”、“lma”、“mar”艺术。”对于问题1),找到单词边界,您可以使用现有的算法来标记东亚语言。它们通常涉及应用隐马尔可夫模型: 我还可以考虑应用CKY算法(用于解析上下文无关语法),特别是如果你能找到一本提供音节切分和音节清单的词典 问题2),我认为,只是拼写纠正的一个例子。就像对待其他角色一样对待空格 我会发布更多的链接,但我没有足够的声誉
这些问题不容易,祝你好运 我是这个领域的新手。你能指出一些关于这方面的书或网上资料吗?t恤衫怎么能用字母n-grams来表示呢?