Python-mlpy文本分类_Python_Machine Learning_Nltk_Perceptron

Python-mlpy文本分类

python machine-learning

Python-mlpy文本分类,python,machine-learning,nltk,perceptron,Python,Machine Learning,Nltk,Perceptron,我是mlpy库的新手，正在寻找实现句子分类的最佳方法。我想用mply基本感知器来做，但据我所知，它使用的是预定义的向量大小，但我需要在机器学习时动态增加向量的大小，因为我不想创建一个巨大的向量（所有英语单词）。我实际上需要做的是获得一个句子列表，并从中构建一个分类器向量，然后当应用程序获得新句子时，它将尝试将其自动分类到一个标签（监督学习）任何想法、想法和例子都会非常有用谢谢如果你事先准备好了所有的句子，你可以准备一个句子列表单词（删除停止词）将每个单词映射到功能。大小向量的最大值

我是mlpy库的新手，正在寻找实现句子分类的最佳方法。我想用mply基本感知器来做，但据我所知，它使用的是预定义的向量大小，但我需要在机器学习时动态增加向量的大小，因为我不想创建一个巨大的向量（所有英语单词）。我实际上需要做的是获得一个句子列表，并从中构建一个分类器向量，然后当应用程序获得新句子时，它将尝试将其自动分类到一个标签（监督学习）

任何想法、想法和例子都会非常有用

谢谢

如果你事先准备好了所有的句子，你可以准备一个句子列表单词（删除停止词）将每个单词映射到功能。大小向量的最大值是字典中的单词数

一旦你有了它，你就可以训练感知机了

请看一下我的代码，其中我用Perl进行了映射，然后在matlab中实现了perceptron，以了解它是如何工作的，并用python编写了一个类似的实现

准备单词袋模型（Perl）

我不想再次用Python编写同样的代码，但这应该会给您一个如何继续的方向

@Dua谢谢您的回答。问题是，当我需要对句子中的新词进行分类时，我需要增加特征（词）的数量。我正在寻找在python中实现这一点的最佳方法，同时尽可能少地编写代码，同时使用已编写的库（如nltk&mlpy for python）。当句子中有新词需要分类时，您没有关于这些词的信息，因此最安全的做法是忽略这些词。这就是标准分类的方法。这篇文章很好地解释了这个理论

use warnings;
use strict;

my %positions = ();
my $n = 0;
my $spam = -1;

open (INFILE, "q4train.dat");
open (OUTFILE, ">q4train_mod.dat");
while (<INFILE>) {
    chomp;
    my @values = split(' ', $_);
    my %frequencies = ();
    for (my $i = 0; $i < scalar(@values); $i = $i+2) {
        if ($i==0) {
            if ($values[1] eq 'spam') {
                $spam = 1;
            }
            else {
                $spam = -1;
            }
        }
        else {
            $frequencies{$values[$i]} = $values[$i+1];
            if (!exists ($positions{$values[$i]})) {
                $n++;
                $positions{$values[$i]} = $n;   
            }
        }
    }
    print OUTFILE $spam." ";
    my @keys = sort { $positions{$a} <=> $positions{$b} } keys %positions;
    foreach my $word (@keys) {
        if (exists ($frequencies{$word})) {
            print OUTFILE " ".$positions{$word}.":".$frequencies{$word};
        }
    }
    print OUTFILE "\n";
}
close (INFILE);
close (OUTFILE);

open (INFILE, "q4test.dat");
open (OUTFILE, ">q4test_mod.dat");
while (<INFILE>) {
    chomp;
    my @values = split(' ', $_);
    my %frequencies = ();
    for (my $i = 0; $i < scalar(@values); $i = $i+2) {
        if ($i==0) {
            if ($values[1] eq 'spam') {
                $spam = 1;
            }
            else {
                $spam = -1;
            }
        }
        else {
            $frequencies{$values[$i]} = $values[$i+1];
            if (!exists ($positions{$values[$i]})) {
                $n++;
                $positions{$values[$i]} = $n;
            }
        }
    }
    print OUTFILE $spam." ";
    my @keys = sort { $positions{$a} <=> $positions{$b} } keys %positions;
    foreach my $word (@keys) {
        if (exists ($frequencies{$word})) {
            print OUTFILE " ".$positions{$word}.":".$frequencies{$word};
        }
    }
    print OUTFILE "\n";
}
close (INFILE);
close (OUTFILE);

open (OUTFILE, ">wordlist.dat");
my @keys = sort { $positions{$a} <=> $positions{$b} } keys %positions;
foreach my $word (@keys) {
    print OUTFILE $word."\n";
}

clc; clear; close all;

[Ytrain, Xtrain] = libsvmread('q4train_mod.dat');
[Ytest, Xtest] = libsvmread('q4test_mod.dat');

mtrain = size(Xtrain,1);
mtest = size(Xtest,1);
n = size(Xtrain,2);

% part a
% learn perceptron
Xtrain_perceptron = [ones(mtrain,1) Xtrain];
Xtest_perceptron = [ones(mtest,1) Xtest];
alpha = 0.1;
%initialize
theta_perceptron = zeros(n+1,1);
trainerror_mag = 100000;
iteration = 0;
%loop
while (trainerror_mag>1000)
    iteration = iteration+1;
    for i = 1 : mtrain
        Ypredict_temp = sign(theta_perceptron'*Xtrain_perceptron(i,:)');
        theta_perceptron = theta_perceptron + alpha*(Ytrain(i)-Ypredict_temp)*Xtrain_perceptron(i,:)';
    end
    Ytrainpredict_perceptron = sign(theta_perceptron'*Xtrain_perceptron')';
    trainerror_mag = (Ytrainpredict_perceptron - Ytrain)'*(Ytrainpredict_perceptron - Ytrain)
end
Ytestpredict_perceptron = sign(theta_perceptron'*Xtest_perceptron')';
testerror_mag = (Ytestpredict_perceptron - Ytest)'*(Ytestpredict_perceptron - Ytest)