php中的单词袋算法
我正在做我学习的最后一个项目 我正在尝试对推特信息进行情感分析 我用的是贝叶斯算法,还有一大堆单词 你有PHP中单词袋算法的例子吗 我什么也找不到,可能是正面和负面单词的列表或是什么“单词袋”不是算法 这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有字数的稀疏向量。“字包”不是算法php中的单词袋算法,php,algorithm,sentiment-analysis,Php,Algorithm,Sentiment Analysis,我正在做我学习的最后一个项目 我正在尝试对推特信息进行情感分析 我用的是贝叶斯算法,还有一大堆单词 你有PHP中单词袋算法的例子吗 我什么也找不到,可能是正面和负面单词的列表或是什么“单词袋”不是算法 这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有字数的稀疏向量。“字包”不是算法 这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有单词计数的稀疏向量。我没有在PHP中实现单词包,但我
这仅仅意味着你将文本视为一个无序的多集(一个“袋子”)供你分析;你不会像在NLP中那样注意词序。例如,具有单词计数的稀疏向量。我没有在PHP中实现单词包,但我在java中实现了它。实现它的一种简单方法是获取训练数据并将其标记化(例如Stanford标记器)。一旦将所有训练数据标记化,就可以从中提取1克。我用它来提取克数,然后从输出中去掉单词数,只使用单词。这将成为你的词汇库,可以在训练和分类过程中使用。确保在训练和测试或分类期间使用相同的标记器,并且在训练模型时也使用相同的语料库 现在实现它非常简单,只需获取一个数据字符串,并使用用于创建单词包语料库的相同标记器对其进行标记。现在获取每个标记,然后确定该标记在语料库中是否可用,以及在什么位置。例如,您有一个语料库,其中包含以下单词:- a 名字 你好 世界 , 你有一个字符串“你好,我叫Jas”。标记化它将给出以下标记{hello,,,my,name,is,Jas},当您尝试将这些标记与语料库匹配时,您的结果将是:- 2:14:16:1
这意味着,语料库中位置2、4和6中的单词name、hello和逗号都出现在传入的测试字符串中。我没有用PHP实现单词包,但我用java实现了它。实现它的一种简单方法是获取训练数据并将其标记化(例如Stanford标记器)。一旦将所有训练数据标记化,就可以从中提取1克。我用它来提取克数,然后从输出中去掉单词数,只使用单词。这将成为你的词汇库,可以在训练和分类过程中使用。确保在训练和测试或分类期间使用相同的标记器,并且在训练模型时也使用相同的语料库 现在实现它非常简单,只需获取一个数据字符串,并使用用于创建单词包语料库的相同标记器对其进行标记。现在获取每个标记,然后确定该标记在语料库中是否可用,以及在什么位置。例如,您有一个语料库,其中包含以下单词:- a 名字 你好 世界 , 你有一个字符串“你好,我叫Jas”。标记化它将给出以下标记{hello,,,my,name,is,Jas},当您尝试将这些标记与语料库匹配时,您的结果将是:- 2:14:16:1 这意味着,语料库中位置2、4和6中的单词name、hello和逗号将出现在传入的测试字符串中。请参见