Email 如何将电子邮件数据提取到R中?
如何将我的电子邮件数据库从Gmail(或Thunderbird)导出到R 就像rgoogledocs软件包和twitteR一样,是否有Gmail软件包,或者将电子邮件导出到stat软件包的标准格式 Tal标准电子邮件(在Unix系统上)是一个Email 如何将电子邮件数据提取到R中?,email,r,gmail,package,Email,R,Gmail,Package,如何将我的电子邮件数据库从Gmail(或Thunderbird)导出到R 就像rgoogledocs软件包和twitteR一样,是否有Gmail软件包,或者将电子邮件导出到stat软件包的标准格式 Tal标准电子邮件(在Unix系统上)是一个mbox文件(包含多条消息)或maildir设置,其中每个邮件都是目录中的一个文件 不管怎样,它都是ascii文本。这就是MUA(邮件用户代理——您的邮件阅读器)与MTA(邮件传输代理——邮件服务器软件,如exim、qmail、postfix等)正交的方式。
mbox
文件(包含多条消息)或maildir
设置,其中每个邮件都是目录中的一个文件
不管怎样,它都是ascii文本。这就是MUA(邮件用户代理——您的邮件阅读器)与MTA(邮件传输代理——邮件服务器软件,如exim、qmail、postfix等)正交的方式。MTA可能会使用POP3或IMAP等网络协议向客户端提供邮件文件,在这种情况下,客户端(可能是Gmail或Thunderbird)将不再看到底层文件。因此,您可能需要学习如何从您使用的任何后端导出邮件,然后阅读
到目前为止,这与R或编程无关——除非您现在觉得必须使用POP3或IMAP功能扩展R以连接(远程)邮件服务器。Gmail和Thunderbird不一样。。。您可以在Thunderbird中启用Gmail帐户,从而导出ASCII文件中的每个电子邮件,从而编写一个R批处理脚本,将每个文件作为对象导入R中,从而。。。你明白了 通常我会尽量避免“行人通道”。。。但我得到的印象是,您倾向于使用R作为“通用”编程语言。。。另一方面,Python或JAVA可能非常高效,因此您可以编写(或请他人为您编写)一个脚本,以理想的格式“提供”数据,然后在R中进行处理。R已经成熟了很多,它不再仅仅是一个统计分析工具,但是使用一些广为人知的编程语言来实现数据总是一个好主意 所以在那里。。。卷起袖子,潜入Python(JAVA、C…任何你想潜入的东西) 附言。
我想这与你之前用word cloud发布的帖子有关…现在有了R包来提取电子邮件数据。该软件包仍处于测试阶段,但任何人都可以从GitHub安装,软件包名为edeR。现在,这可以从支持IMAP的Gmail中提取电子邮件数据。需要先安装它
库(edeR)
。可能需要在Windows 8上手动安装Java 64,可能需要在Gmail中启用IMAP访问
dat3 <-extractKeyword(username="YOURLOGIN@gmail.com",
password="YouRPaSS",
kw="adsense",
nmail=5)
dat3将mbox格式的电子邮件导出到PC后,您可以使用R中的tm和tm.plugin.mail软件包。后者使您可以将电子邮件导出到R中
require("tm")
require("tm.plugin.mail")
然后,要将您的电子邮件从mbox(即一个盒子中的多封邮件)格式转换为eml(即一个文件中的每封邮件)格式:convert_mbox_eml(mbox,dir)。在下面的示例中,mbox由“yourmails.mbox”表示,它描述了mbox的位置。输出目录由“your_mails”给出
您可以读入电子邮件文档并使用以下R命令进行检查
mails <- VCorpus(DirSource("your_mails/"), readerControl = list(reader =
readMail))
inspect(mails)
邮件也许你的意思是“导入”到R?谢谢Joy。我联系了作者,邀请他在r-statistics.com上写一篇关于他的包裹的客座帖子。我希望它能通过。干杯,Tsadly只提取标题信息,而不是电子邮件内容。不过,从maildir格式解析邮件的软件包仍然很有用。但我想它很容易与标准的字符串操作包(如stringr
或stringi
)结合在一起。
mails <- VCorpus(DirSource("your_mails/"), readerControl = list(reader =
readMail))
inspect(mails)