Python 如何从words目录创建语料库？_Python_Nlp_Text Segmentation

Python 如何从words目录创建语料库？

python nlp

Python 如何从words目录创建语料库？,python,nlp,text-segmentation,Python,Nlp,Text Segmentation,我想对公司名称进行分段。输入不是句子的形式这里是输入和输出的图示 appleinc -> ["apple", "inc"] googlellc -> ["google", "llc"] slacktechnologiesinc -> ["slack", "technologies", "inc"] llcllc -> ["

我想对公司名称进行分段。输入不是句子的形式

这里是输入和输出的图示

appleinc -> ["apple", "inc"]
googlellc -> ["google", "llc"]
slacktechnologiesinc -> ["slack", "technologies", "inc"]
llcllc -> ["llc", "llc"]
incllc -> ["inc", "llc"]

我发现格兰特·詹克适合这个任务

他发表了一篇关于如何在图书馆中使用不同语料库的文章。然而，他正在使用电子书建立语料库

我已经研究了现有的语料库教程，但每一个教程都使用维基百科或电子书来构建基于句子的语料库

我有两个目录。一个目录包含全球公司名称，而另一个目录包含公司法律缩写，如（“llc”、“inc”）

如何从这两个目录创建COPU并构建Unigram和Bigram