Text 构建自己的文本语料库

Text 构建自己的文本语料库,text,corpus,Text,Corpus,这听起来可能很愚蠢,但你知道如何建立文本语料库吗?我到处都搜索过,已经有语料库了,但我想知道他们是如何建立的?例如,如果我想建立包含正面和负面推文的语料库,那么我只需要制作两个文件?但是那些文件的内部呢?不明白(((( 他在RedisDB中存储pos和neg推文 但是那些文件的内部呢 这主要取决于您使用的库。XML(带有各种标记)是常见的,每行一句话也是如此。最棘手的部分是首先获取数据 例如,如果我想建立包含正面和负面推文的语料库 这是否意味着你想知道如何将推特标记为正面和负面?如果是这样,你要

这听起来可能很愚蠢,但你知道如何建立文本语料库吗?我到处都搜索过,已经有语料库了,但我想知道他们是如何建立的?例如,如果我想建立包含正面和负面推文的语料库,那么我只需要制作两个文件?但是那些文件的内部呢?不明白(((( 他在RedisDB中存储pos和neg推文

但是那些文件的内部呢

这主要取决于您使用的库。XML(带有各种标记)是常见的,每行一句话也是如此。最棘手的部分是首先获取数据

例如,如果我想建立包含正面和负面推文的语料库

这是否意味着你想知道如何将推特标记为正面和负面?如果是这样,你要寻找的是文本分类或语义分析

如果你想找到一堆tweet,我会查看其中一个页面(仅通过我自己的快速搜索)

单击F5:

库拉:

谷歌集团:


对于如何创建语料库的一般性学习,我想看看Richard Xiao的文章。

你让它听起来很简单。一个合适的语料库应该是平衡的、有代表性的和无错误的;当然,一个分类器或一组分类器的输出可能是一个开始,但你不能真正避免手动质量保证。