Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/multithreading/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Multithreading 将数据并行输入mallet_Multithreading_Text_Classification_Text Processing_Mallet - Fatal编程技术网

Multithreading 将数据并行输入mallet

Multithreading 将数据并行输入mallet,multithreading,text,classification,text-processing,mallet,Multithreading,Text,Classification,Text Processing,Mallet,我正在尝试使用mallet构建一个文本分类器。数据有点大,所以我正在寻找一种方法,如果可能的话,在多个线程上运行“导入”任务,因为加载它需要很长时间。这里有几个问题: 有没有一种方法可以手动并行化流程,方法是分割数据,分别导入数据,然后合并数据。我知道我可以并行运行它们并获得多个输入文件,但是我可以在训练分类器之前合并生成的mallet输入文件吗 如果机器上有可用的螺纹,木槌本身是否会使该过程平行化 谢谢你的帮助 实际上,你的问题似乎与木槌没有直接关系。所以为了回答你的问题,两个木槌不会做这样的

我正在尝试使用mallet构建一个文本分类器。数据有点大,所以我正在寻找一种方法,如果可能的话,在多个线程上运行“导入”任务,因为加载它需要很长时间。这里有几个问题:

  • 有没有一种方法可以手动并行化流程,方法是分割数据,分别导入数据,然后合并数据。我知道我可以并行运行它们并获得多个输入文件,但是我可以在训练分类器之前合并生成的mallet输入文件吗

  • 如果机器上有可用的螺纹,木槌本身是否会使该过程平行化


  • 谢谢你的帮助

    实际上,你的问题似乎与木槌没有直接关系。所以为了回答你的问题,两个木槌不会做这样的事情。但是您可以将文本分成相等的部分,然后使用它们,方法是将所有内容保留在同一文件夹中,并提供Mallet该文件夹的路径。可以帮助你实现它。您需要按照
    每个文件的一个实例
    部分的说明进行操作。

    实际上,您的问题似乎与mallet没有直接关系。所以为了回答你的问题,两个木槌不会做这样的事情。但是您可以将文本分成相等的部分,然后使用它们,方法是将所有内容保留在同一文件夹中,并提供Mallet该文件夹的路径。可以帮助你实现它。您需要按照
    每个文件一个实例的说明
    零件。

    我正在做您在他那个时候提到的事情,但是发生的是,文件夹中的一个文件在给定的点上被处理。我想要的是使这个过程并行。将数据拆分为不同的部分将不允许并行处理。我主要希望并行化“导入数据”步骤。我没有在加载步骤的问题,但它是花了很多时间也许你应该澄清你的项目的目的,然后我可以帮助更多。因为从我的观点来看,导入过程不需要并行化,因为您可以将数据拆分为多个部分。我尝试将文档分为三个组,因此我有一个“主”目录,其中包含3个子目录(组1、组2、组3)。我的数据根据每个文档的类标签分为这3个子目录。每个子目录都有大量相对较大的文件。要构建分类器,我必须首先导入数据,并且在运行import命令时提供主目录。对于这个导入步骤,有没有办法在保留文件标签的同时使其并行(除了三个子目录并行)呢?我正在做你在他那个时候提到的事情,但是发生的事情是,文件夹中的一个文件在给定点被处理。我想要的是使这个过程并行。将数据拆分为不同的部分将不允许并行处理。我主要希望并行化“导入数据”步骤。我没有在加载步骤的问题,但它是花了很多时间也许你应该澄清你的项目的目的,然后我可以帮助更多。因为从我的观点来看,导入过程不需要并行化,因为您可以将数据拆分为多个部分。我尝试将文档分为三个组,因此我有一个“主”目录,其中包含3个子目录(组1、组2、组3)。我的数据根据每个文档的类标签分为这3个子目录。每个子目录都有大量相对较大的文件。要构建分类器,我必须首先导入数据,并且在运行import命令时提供主目录。对于这个导入步骤,有没有一种方法可以使它并行(除了三个子目录并行之外),同时保留文件的标签?