Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/77.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何解决数据丢失&;TermDocumentMatrix()和DocumentTermMatrix()分别出现错误?_R_Utf 8_Emoji_Tf Idf_Tm - Fatal编程技术网

如何解决数据丢失&;TermDocumentMatrix()和DocumentTermMatrix()分别出现错误?

如何解决数据丢失&;TermDocumentMatrix()和DocumentTermMatrix()分别出现错误?,r,utf-8,emoji,tf-idf,tm,R,Utf 8,Emoji,Tf Idf,Tm,我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量tweet中每个表情符号的重要性。总共有437个独特的表情符号和810条推文 我当前的问题是,使用术语DocumentMatrix,所有术语都不会显示。然而,对于DocumentTermMatrix有一个我无法回避的错误。下面是一个工作代码段: 库(dplyr) 图书馆(tidytext) 图书馆(tm) 图书馆(tidyr) #这些不是我的数据,这些是我在网上发现的随机伪造bios,只是为了制作这个代码片段

我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量tweet中每个表情符号的重要性。总共有437个独特的表情符号和810条推文

我当前的问题是,使用
术语DocumentMatrix
,所有术语都不会显示。然而,对于
DocumentTermMatrix
有一个我无法回避的错误。下面是一个工作代码段:

库(dplyr)
图书馆(tidytext)
图书馆(tm)
图书馆(tidyr)
#这些不是我的数据,这些是我在网上发现的随机伪造bios,只是为了制作这个代码片段


tweets_data我略微更改了您的原始数据,因为您的表情符号在文本中只出现一次,这将tfidf中的所有值都转换为1(见下文,我只是随机添加了一些我略微更改了您的原始数据,因为您的表情符号在文本中只出现一次,这将tfidf中的所有值转换为1)(见下文,我只是随机添加了一些技巧:使用
quanteda
而不是
tm
。当我还在使用
tm
时,我经常会遇到这样的垃圾。
quanteda
是一种现代而快速的选择,它不会经常遇到奇怪的编码问题。看起来问题在于“单词”只在空格处拆分。如果你在一个没有空格的单词旁边有一个表情符号,它被认为只是该单词的一部分。谢谢@JBGruber!从未听说过它,我会查看它。如果你不介意的话,需要帮忙,你能给我一个使用上述数据的快速示例吗?如果你很忙,这不是问题:)谢谢,@flick先生,是的,你是对的。我刚刚插了一面瑞典和黑色的旗帜,现在它们用术语表示出来了。有意思,有什么想法吗?我的建议是:使用
quanteda
而不是
tm
。当我还在使用
tm
时,我经常会遇到这样的麻烦。
quanteda
是一种现代而快速的选择它不会经常遇到奇怪的编码问题。看起来问题在于“单词”只在空格处拆分。如果你在一个没有空格的单词旁边有一个表情符号,它被认为只是该单词的一部分。谢谢@JBGruber!从未听说过它,我会查看它。如果你不介意的话,需要帮忙,你能给我一个使用上述数据的快速示例吗?如果你很忙,这不是问题:)谢谢,@flick先生,是的,你是对的。我刚刚插了一面瑞典和黑色的旗帜,现在它们用术语显示出来了。有意思,有什么想法吗?非常感谢,先生。我将尽快从
tm
过渡到
quanteda
。我很高兴能及时见到你,我打算在
tm
上投入更多的时间。祝你好运Sussed day!@ToadPitt,您可能还需要查看程序包textclean。使用它,您可以替换(或删除)继续使用quanteda之前的表情符号和表情符号。不客气!
tm
在人们开始在
R
中进行文本分析并铺平道路时非常棒。但是
quanteda
现在的效果更好了。@phiver谢谢!是的,我熟悉这个软件包。我以前用它对网络图进行了一些分析还有表情提取,但我不知道如何继续将其用于文本挖掘。@JBGruber是的,看起来就是这样。我正在读quanteda[dot]io的一些教程,作者指出了
tm
软件包的局限性。我不知道这个软件包存在。谢谢你让我知道;)非常感谢先生。我将尽快从
tm
过渡到
quanteda
。我很高兴能准时见到你,我打算在未来的
tm
上投入更多的时间。祝你有幸福的一天@ToadPitt,您可能还需要查看程序包textclean。使用它,您可以在继续使用quanteda之前替换(或删除)表情符号和表情符号。不客气<当人们开始在
R
中进行文本分析并铺平道路时,code>tm
非常棒。但是现在quanteda的效果更好了。@phiver谢谢!是的,我对那个包裹很熟悉。我以前用它来分析网络图和表情提取,但我不知道如何继续用它进行文本挖掘。@JBGruber是的,看起来就是这样。我正在读quanteda[dot]io的一些教程,作者指出了
tm
软件包的局限性。我不知道这个包裹存在。谢谢你让我知道;)