Python 如何从words目录创建语料库?
我想对公司名称进行分段。输入不是句子的形式 这里是输入和输出的图示Python 如何从words目录创建语料库?,python,nlp,text-segmentation,Python,Nlp,Text Segmentation,我想对公司名称进行分段。输入不是句子的形式 这里是输入和输出的图示 appleinc -> ["apple", "inc"] googlellc -> ["google", "llc"] slacktechnologiesinc -> ["slack", "technologies", "inc"] llcllc -> ["
appleinc -> ["apple", "inc"]
googlellc -> ["google", "llc"]
slacktechnologiesinc -> ["slack", "technologies", "inc"]
llcllc -> ["llc", "llc"]
incllc -> ["inc", "llc"]
我发现格兰特·詹克适合这个任务
他发表了一篇关于如何在图书馆中使用不同语料库的文章。然而,他正在使用电子书建立语料库
我已经研究了现有的语料库教程,但每一个教程都使用维基百科或电子书来构建基于句子的语料库
我有两个目录。一个目录包含全球公司名称,而另一个目录包含公司法律缩写,如(“llc”、“inc”)
如何从这两个目录创建COPU并构建Unigram和Bigram