Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
php中的单词袋算法_Php_Algorithm_Sentiment Analysis - Fatal编程技术网

php中的单词袋算法

php中的单词袋算法,php,algorithm,sentiment-analysis,Php,Algorithm,Sentiment Analysis,我正在做我学习的最后一个项目 我正在尝试对推特信息进行情感分析 我用的是贝叶斯算法,还有一大堆单词 你有PHP中单词袋算法的例子吗 我什么也找不到,可能是正面和负面单词的列表或是什么“单词袋”不是算法 这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有字数的稀疏向量。“字包”不是算法 这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有单词计数的稀疏向量。我没有在PHP中实现单词包,但我

我正在做我学习的最后一个项目

我正在尝试对推特信息进行情感分析

我用的是贝叶斯算法,还有一大堆单词

你有PHP中单词袋算法的例子吗

我什么也找不到,可能是正面和负面单词的列表或是什么

“单词袋”不是算法

这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有字数的稀疏向量。

“字包”不是算法


这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有单词计数的稀疏向量。

我没有在PHP中实现单词包,但我在java中实现了它。实现它的一种简单方法是获取训练数据并将其标记化(例如Stanford标记器)。一旦将所有训练数据标记化,就可以从中提取1克。我用它来提取克数,然后从输出中去掉单词数,只使用单词。这将成为你的词汇库,可以在训练和分类过程中使用。确保在训练和测试或分类期间使用相同的标记器,并且在训练模型时也使用相同的语料库

现在实现它非常简单,只需获取一个数据字符串,并使用用于创建单词包语料库的相同标记器对其进行标记。现在获取每个标记,然后确定该标记在语料库中是否可用,以及在什么位置。例如,您有一个语料库,其中包含以下单词:-

a

名字

你好

世界

,

你有一个字符串“你好,我叫Jas”。标记化它将给出以下标记{hello,,,my,name,is,Jas},当您尝试将这些标记与语料库匹配时,您的结果将是:-

2:14:16:1


这意味着,语料库中位置2、4和6中的单词name、hello和逗号都出现在传入的测试字符串中。

我没有用PHP实现单词包,但我用java实现了它。实现它的一种简单方法是获取训练数据并将其标记化(例如Stanford标记器)。一旦将所有训练数据标记化,就可以从中提取1克。我用它来提取克数,然后从输出中去掉单词数,只使用单词。这将成为你的词汇库,可以在训练和分类过程中使用。确保在训练和测试或分类期间使用相同的标记器,并且在训练模型时也使用相同的语料库

现在实现它非常简单,只需获取一个数据字符串,并使用用于创建单词包语料库的相同标记器对其进行标记。现在获取每个标记,然后确定该标记在语料库中是否可用,以及在什么位置。例如,您有一个语料库,其中包含以下单词:-

a

名字

你好

世界

,

你有一个字符串“你好,我叫Jas”。标记化它将给出以下标记{hello,,,my,name,is,Jas},当您尝试将这些标记与语料库匹配时,您的结果将是:-

2:14:16:1

这意味着,语料库中位置2、4和6中的单词name、hello和逗号将出现在传入的测试字符串中。

请参见