Multithreading 将数据并行输入mallet
我正在尝试使用mallet构建一个文本分类器。数据有点大,所以我正在寻找一种方法,如果可能的话,在多个线程上运行“导入”任务,因为加载它需要很长时间。这里有几个问题:Multithreading 将数据并行输入mallet,multithreading,text,classification,text-processing,mallet,Multithreading,Text,Classification,Text Processing,Mallet,我正在尝试使用mallet构建一个文本分类器。数据有点大,所以我正在寻找一种方法,如果可能的话,在多个线程上运行“导入”任务,因为加载它需要很长时间。这里有几个问题: 有没有一种方法可以手动并行化流程,方法是分割数据,分别导入数据,然后合并数据。我知道我可以并行运行它们并获得多个输入文件,但是我可以在训练分类器之前合并生成的mallet输入文件吗 如果机器上有可用的螺纹,木槌本身是否会使该过程平行化 谢谢你的帮助 实际上,你的问题似乎与木槌没有直接关系。所以为了回答你的问题,两个木槌不会做这样的
谢谢你的帮助 实际上,你的问题似乎与木槌没有直接关系。所以为了回答你的问题,两个木槌不会做这样的事情。但是您可以将文本分成相等的部分,然后使用它们,方法是将所有内容保留在同一文件夹中,并提供Mallet该文件夹的路径。可以帮助你实现它。您需要按照
每个文件的一个实例部分的说明进行操作。实际上,您的问题似乎与mallet没有直接关系。所以为了回答你的问题,两个木槌不会做这样的事情。但是您可以将文本分成相等的部分,然后使用它们,方法是将所有内容保留在同一文件夹中,并提供Mallet该文件夹的路径。可以帮助你实现它。您需要按照每个文件一个实例的说明零件。我正在做您在他那个时候提到的事情,但是发生的是,文件夹中的一个文件在给定的点上被处理。我想要的是使这个过程并行。将数据拆分为不同的部分将不允许并行处理。我主要希望并行化“导入数据”步骤。我没有在加载步骤的问题,但它是花了很多时间也许你应该澄清你的项目的目的,然后我可以帮助更多。因为从我的观点来看,导入过程不需要并行化,因为您可以将数据拆分为多个部分。我尝试将文档分为三个组,因此我有一个“主”目录,其中包含3个子目录(组1、组2、组3)。我的数据根据每个文档的类标签分为这3个子目录。每个子目录都有大量相对较大的文件。要构建分类器,我必须首先导入数据,并且在运行import命令时提供主目录。对于这个导入步骤,有没有办法在保留文件标签的同时使其并行(除了三个子目录并行)呢?我正在做你在他那个时候提到的事情,但是发生的事情是,文件夹中的一个文件在给定点被处理。我想要的是使这个过程并行。将数据拆分为不同的部分将不允许并行处理。我主要希望并行化“导入数据”步骤。我没有在加载步骤的问题,但它是花了很多时间也许你应该澄清你的项目的目的,然后我可以帮助更多。因为从我的观点来看,导入过程不需要并行化,因为您可以将数据拆分为多个部分。我尝试将文档分为三个组,因此我有一个“主”目录,其中包含3个子目录(组1、组2、组3)。我的数据根据每个文档的类标签分为这3个子目录。每个子目录都有大量相对较大的文件。要构建分类器,我必须首先导入数据,并且在运行import命令时提供主目录。对于这个导入步骤,有没有一种方法可以使它并行(除了三个子目录并行之外),同时保留文件的标签?