如何解决数据丢失&；TermDocumentMatrix（）和DocumentTermMatrix（）分别出现错误？_R_Utf 8_Emoji_Tf Idf_Tm

如何解决数据丢失&；TermDocumentMatrix（）和DocumentTermMatrix（）分别出现错误？

r utf-8

如何解决数据丢失&；TermDocumentMatrix（）和DocumentTermMatrix（）分别出现错误？,r,utf-8,emoji,tf-idf,tm,R,Utf 8,Emoji,Tf Idf,Tm,我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析，以衡量tweet中每个表情符号的重要性。总共有437个独特的表情符号和810条推文我当前的问题是，使用术语DocumentMatrix，所有术语都不会显示。然而，对于DocumentTermMatrix有一个我无法回避的错误。下面是一个工作代码段：库（dplyr）图书馆（tidytext）图书馆（tm）图书馆（tidyr） #这些不是我的数据，这些是我在网上发现的随机伪造bios，只是为了制作这个代码片段

我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析，以衡量tweet中每个表情符号的重要性。总共有437个独特的表情符号和810条推文

我当前的问题是，使用

术语DocumentMatrix

，所有术语都不会显示。然而，对于

DocumentTermMatrix

有一个我无法回避的错误。下面是一个工作代码段：

库（dplyr）
图书馆（tidytext）
图书馆（tm）
图书馆（tidyr）
#这些不是我的数据，这些是我在网上发现的随机伪造bios，只是为了制作这个代码片段
tweets_data我略微更改了您的原始数据，因为您的表情符号在文本中只出现一次，这将tfidf中的所有值都转换为1（见下文，我只是随机添加了一些我略微更改了您的原始数据，因为您的表情符号在文本中只出现一次，这将tfidf中的所有值转换为1）（见下文，我只是随机添加了一些技巧：使用quanteda
而不是tm
。当我还在使用tm
时，我经常会遇到这样的垃圾。quanteda
是一种现代而快速的选择，它不会经常遇到奇怪的编码问题。看起来问题在于“单词”只在空格处拆分。如果你在一个没有空格的单词旁边有一个表情符号，它被认为只是该单词的一部分。谢谢@JBGruber！从未听说过它，我会查看它。如果你不介意的话，需要帮忙，你能给我一个使用上述数据的快速示例吗？如果你很忙，这不是问题：）谢谢，@flick先生，是的，你是对的。我刚刚插了一面瑞典和黑色的旗帜，现在它们用术语表示出来了。有意思，有什么想法吗？我的建议是：使用quanteda
而不是tm
。当我还在使用tm
时，我经常会遇到这样的麻烦。quanteda
是一种现代而快速的选择它不会经常遇到奇怪的编码问题。看起来问题在于“单词”只在空格处拆分。如果你在一个没有空格的单词旁边有一个表情符号，它被认为只是该单词的一部分。谢谢@JBGruber！从未听说过它，我会查看它。如果你不介意的话，需要帮忙，你能给我一个使用上述数据的快速示例吗？如果你很忙，这不是问题：）谢谢，@flick先生，是的，你是对的。我刚刚插了一面瑞典和黑色的旗帜，现在它们用术语显示出来了。有意思，有什么想法吗？非常感谢，先生。我将尽快从tm
过渡到quanteda
。我很高兴能及时见到你，我打算在tm
上投入更多的时间。祝你好运Sussed day！@ToadPitt，您可能还需要查看程序包textclean。使用它，您可以替换（或删除）继续使用quanteda之前的表情符号和表情符号。不客气！tm
在人们开始在R
中进行文本分析并铺平道路时非常棒。但是quanteda
现在的效果更好了。@phiver谢谢！是的，我熟悉这个软件包。我以前用它对网络图进行了一些分析还有表情提取，但我不知道如何继续将其用于文本挖掘。@JBGruber是的，看起来就是这样。我正在读quanteda[dot]io的一些教程，作者指出了tm
软件包的局限性。我不知道这个软件包存在。谢谢你让我知道；）非常感谢先生。我将尽快从tm
过渡到quanteda
。我很高兴能准时见到你，我打算在未来的tm
上投入更多的时间。祝你有幸福的一天@ToadPitt，您可能还需要查看程序包textclean。使用它，您可以在继续使用quanteda之前替换（或删除）表情符号和表情符号。不客气<当人们开始在R
中进行文本分析并铺平道路时，code>tm

非常棒。但是现在quanteda的效果更好了。@phiver谢谢！是的，我对那个包裹很熟悉。我以前用它来分析网络图和表情提取，但我不知道如何继续用它进行文本挖掘。@JBGruber是的，看起来就是这样。我正在读quanteda[dot]io的一些教程，作者指出了

tm

软件包的局限性。我不知道这个包裹存在。谢谢你让我知道；）