Multithreading 将数据并行输入mallet_Multithreading_Text_Classification_Text Processing_Mallet

Multithreading 将数据并行输入mallet

multithreading text

Multithreading 将数据并行输入mallet,multithreading,text,classification,text-processing,mallet,Multithreading,Text,Classification,Text Processing,Mallet,我正在尝试使用mallet构建一个文本分类器。数据有点大，所以我正在寻找一种方法，如果可能的话，在多个线程上运行“导入”任务，因为加载它需要很长时间。这里有几个问题：有没有一种方法可以手动并行化流程，方法是分割数据，分别导入数据，然后合并数据。我知道我可以并行运行它们并获得多个输入文件，但是我可以在训练分类器之前合并生成的mallet输入文件吗如果机器上有可用的螺纹，木槌本身是否会使该过程平行化谢谢你的帮助实际上，你的问题似乎与木槌没有直接关系。所以为了回答你的问题，两个木槌不会做这样的

我正在尝试使用mallet构建一个文本分类器。数据有点大，所以我正在寻找一种方法，如果可能的话，在多个线程上运行“导入”任务，因为加载它需要很长时间。这里有几个问题：

有没有一种方法可以手动并行化流程，方法是分割数据，分别导入数据，然后合并数据。我知道我可以并行运行它们并获得多个输入文件，但是我可以在训练分类器之前合并生成的mallet输入文件吗

如果机器上有可用的螺纹，木槌本身是否会使该过程平行化

谢谢你的帮助

实际上，你的问题似乎与木槌没有直接关系。所以为了回答你的问题，两个木槌不会做这样的事情。但是您可以将文本分成相等的部分，然后使用它们，方法是将所有内容保留在同一文件夹中，并提供Mallet该文件夹的路径。可以帮助你实现它。您需要按照

每个文件的一个实例部分的说明进行操作。
实际上，您的问题似乎与mallet没有直接关系。所以为了回答你的问题，两个木槌不会做这样的事情。但是您可以将文本分成相等的部分，然后使用它们，方法是将所有内容保留在同一文件夹中，并提供Mallet该文件夹的路径。可以帮助你实现它。您需要按照每个文件一个实例的说明零件。
我正在做您在他那个时候提到的事情，但是发生的是，文件夹中的一个文件在给定的点上被处理。我想要的是使这个过程并行。将数据拆分为不同的部分将不允许并行处理。我主要希望并行化“导入数据”步骤。我没有在加载步骤的问题，但它是花了很多时间也许你应该澄清你的项目的目的，然后我可以帮助更多。因为从我的观点来看，导入过程不需要并行化，因为您可以将数据拆分为多个部分。我尝试将文档分为三个组，因此我有一个“主”目录，其中包含3个子目录（组1、组2、组3）。我的数据根据每个文档的类标签分为这3个子目录。每个子目录都有大量相对较大的文件。要构建分类器，我必须首先导入数据，并且在运行import命令时提供主目录。对于这个导入步骤，有没有办法在保留文件标签的同时使其并行（除了三个子目录并行）呢？我正在做你在他那个时候提到的事情，但是发生的事情是，文件夹中的一个文件在给定点被处理。我想要的是使这个过程并行。将数据拆分为不同的部分将不允许并行处理。我主要希望并行化“导入数据”步骤。我没有在加载步骤的问题，但它是花了很多时间也许你应该澄清你的项目的目的，然后我可以帮助更多。因为从我的观点来看，导入过程不需要并行化，因为您可以将数据拆分为多个部分。我尝试将文档分为三个组，因此我有一个“主”目录，其中包含3个子目录（组1、组2、组3）。我的数据根据每个文档的类标签分为这3个子目录。每个子目录都有大量相对较大的文件。要构建分类器，我必须首先导入数据，并且在运行import命令时提供主目录。对于这个导入步骤，有没有一种方法可以使它并行（除了三个子目录并行之外），同时保留文件的标签？