Python 如何从words目录创建语料库?

Python 如何从words目录创建语料库?,python,nlp,text-segmentation,Python,Nlp,Text Segmentation,我想对公司名称进行分段。输入不是句子的形式 这里是输入和输出的图示 appleinc -> ["apple", "inc"] googlellc -> ["google", "llc"] slacktechnologiesinc -> ["slack", "technologies", "inc"] llcllc -> ["

我想对公司名称进行分段。输入不是句子的形式

这里是输入和输出的图示

appleinc -> ["apple", "inc"]
googlellc -> ["google", "llc"]
slacktechnologiesinc -> ["slack", "technologies", "inc"]
llcllc -> ["llc", "llc"]
incllc -> ["inc", "llc"]
我发现格兰特·詹克适合这个任务

他发表了一篇关于如何在图书馆中使用不同语料库的文章。然而,他正在使用电子书建立语料库

我已经研究了现有的语料库教程,但每一个教程都使用维基百科或电子书来构建基于句子的语料库

我有两个目录。一个目录包含全球公司名称,而另一个目录包含公司法律缩写,如(“llc”、“inc”)

如何从这两个目录创建COPU并构建Unigram和Bigram