如何解决数据丢失&;TermDocumentMatrix()和DocumentTermMatrix()分别出现错误?
我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量tweet中每个表情符号的重要性。总共有437个独特的表情符号和810条推文 我当前的问题是,使用如何解决数据丢失&;TermDocumentMatrix()和DocumentTermMatrix()分别出现错误?,r,utf-8,emoji,tf-idf,tm,R,Utf 8,Emoji,Tf Idf,Tm,我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量tweet中每个表情符号的重要性。总共有437个独特的表情符号和810条推文 我当前的问题是,使用术语DocumentMatrix,所有术语都不会显示。然而,对于DocumentTermMatrix有一个我无法回避的错误。下面是一个工作代码段: 库(dplyr) 图书馆(tidytext) 图书馆(tm) 图书馆(tidyr) #这些不是我的数据,这些是我在网上发现的随机伪造bios,只是为了制作这个代码片段
术语DocumentMatrix
,所有术语都不会显示。然而,对于DocumentTermMatrix
有一个我无法回避的错误。下面是一个工作代码段:
库(dplyr)
图书馆(tidytext)
图书馆(tm)
图书馆(tidyr)
#这些不是我的数据,这些是我在网上发现的随机伪造bios,只是为了制作这个代码片段
tweets_data我略微更改了您的原始数据,因为您的表情符号在文本中只出现一次,这将tfidf中的所有值都转换为1(见下文,我只是随机添加了一些我略微更改了您的原始数据,因为您的表情符号在文本中只出现一次,这将tfidf中的所有值转换为1)(见下文,我只是随机添加了一些技巧:使用quanteda
而不是tm
。当我还在使用tm
时,我经常会遇到这样的垃圾。quanteda
是一种现代而快速的选择,它不会经常遇到奇怪的编码问题。看起来问题在于“单词”只在空格处拆分。如果你在一个没有空格的单词旁边有一个表情符号,它被认为只是该单词的一部分。谢谢@JBGruber!从未听说过它,我会查看它。如果你不介意的话,需要帮忙,你能给我一个使用上述数据的快速示例吗?如果你很忙,这不是问题:)谢谢,@flick先生,是的,你是对的。我刚刚插了一面瑞典和黑色的旗帜,现在它们用术语表示出来了。有意思,有什么想法吗?我的建议是:使用quanteda
而不是tm
。当我还在使用tm
时,我经常会遇到这样的麻烦。quanteda
是一种现代而快速的选择它不会经常遇到奇怪的编码问题。看起来问题在于“单词”只在空格处拆分。如果你在一个没有空格的单词旁边有一个表情符号,它被认为只是该单词的一部分。谢谢@JBGruber!从未听说过它,我会查看它。如果你不介意的话,需要帮忙,你能给我一个使用上述数据的快速示例吗?如果你很忙,这不是问题:)谢谢,@flick先生,是的,你是对的。我刚刚插了一面瑞典和黑色的旗帜,现在它们用术语显示出来了。有意思,有什么想法吗?非常感谢,先生。我将尽快从tm
过渡到quanteda
。我很高兴能及时见到你,我打算在tm
上投入更多的时间。祝你好运Sussed day!@ToadPitt,您可能还需要查看程序包textclean。使用它,您可以替换(或删除)继续使用quanteda之前的表情符号和表情符号。不客气!tm
在人们开始在R
中进行文本分析并铺平道路时非常棒。但是quanteda
现在的效果更好了。@phiver谢谢!是的,我熟悉这个软件包。我以前用它对网络图进行了一些分析还有表情提取,但我不知道如何继续将其用于文本挖掘。@JBGruber是的,看起来就是这样。我正在读quanteda[dot]io的一些教程,作者指出了tm
软件包的局限性。我不知道这个软件包存在。谢谢你让我知道;)非常感谢先生。我将尽快从tm
过渡到quanteda
。我很高兴能准时见到你,我打算在未来的tm
上投入更多的时间。祝你有幸福的一天@ToadPitt,您可能还需要查看程序包textclean。使用它,您可以在继续使用quanteda之前替换(或删除)表情符号和表情符号。不客气<当人们开始在R
中进行文本分析并铺平道路时,code>tm
非常棒。但是现在quanteda的效果更好了。@phiver谢谢!是的,我对那个包裹很熟悉。我以前用它来分析网络图和表情提取,但我不知道如何继续用它进行文本挖掘。@JBGruber是的,看起来就是这样。我正在读quanteda[dot]io的一些教程,作者指出了tm
软件包的局限性。我不知道这个包裹存在。谢谢你让我知道;)