Python解析URL字符串中的单词
我有一个很大的URL数据集,我需要一种从URL解析单词的方法,例如:Python解析URL字符串中的单词,python,string,parsing,url,nlp,Python,String,Parsing,Url,Nlp,我有一个很大的URL数据集,我需要一种从URL解析单词的方法,例如: realestatesales.com -> {"real","estate","sales"} 我更喜欢用python来做。这似乎可以通过某种英语词典实现。可能有一些模棱两可的情况,但我觉得应该有一个解决方案。这可能对您有用: 这是一组模块,根据您的系统,可能已经安装了这些模块。它可以做各种有趣的事情,即使它不能完全满足您的需要,也可能会让您走上正确的道路。三元搜索树在填充单词词典时可以相当有效地找到最复杂的匹配词集
realestatesales.com -> {"real","estate","sales"}
我更喜欢用python来做。这似乎可以通过某种英语词典实现。可能有一些模棱两可的情况,但我觉得应该有一个解决方案。这可能对您有用:
这是一组模块,根据您的系统,可能已经安装了这些模块。它可以做各种有趣的事情,即使它不能完全满足您的需要,也可能会让您走上正确的道路。三元搜索树在填充单词词典时可以相当有效地找到最复杂的匹配词集(单词)。这是我以前使用过的解决方案。
您可以在这里获得tst的C/Python实现: 示例:
import tst
tree = tst.TST()
#note that tst.ListAction() assigns each matched term to a list
words = tree.scan("MultipleWordString", tst.ListAction())
其他资源:
名为“Solr”的开源搜索引擎使用它所称的“”来处理此问题。您可能想看看它。这是一个分词问题,存在一个高效的动态编程解决方案。page讨论了如何实现它。我以前也回答过这个问题,但我找不到答案的链接。如果您愿意,请随时编辑我的帖子。字典中没有的单词怎么办,例如imgur.com?比您想象的更模糊。。。我可以处理一些模棱两可的问题。也许一个好的系统会想出最有可能的解析方法……你会推荐任何特定的模块吗?在我的脑海中,你可以使用相应的模块将一个单词列表与WordNet生成的语法集结合起来:然后搜索可能包含在你的超字符串(URL)中的子字符串(单词)。这种方法不会节省时间,但它所需要的概念可能会帮助您找到更好的解决方案。