从“读取数据时获取不需要的撇号字符”|&引用;(管道)R中的分隔文本文件
我试图从包含以下格式数据的文本文件中读取数据:从“读取数据时获取不需要的撇号字符”|&引用;(管道)R中的分隔文本文件,r,R,我试图从包含以下格式数据的文本文件中读取数据: 583550348352212992|Thu Apr 02 08:43:39 +0000 2015|Ambulance progress 'not fast enough' http://bbc.in/1P1AJyX 583406140337164288|Wed Apr 01 23:10:37 +0000 2015|Children’s hospital builds sleep app http://bbc.in/1BO9jlZ 我正在使用re
583550348352212992|Thu Apr 02 08:43:39 +0000 2015|Ambulance progress 'not fast enough' http://bbc.in/1P1AJyX
583406140337164288|Wed Apr 01 23:10:37 +0000 2015|Children’s hospital builds sleep app http://bbc.in/1BO9jlZ
我正在使用read.table函数,如下所示:
bbchealth <- read.table(file=".../bbchealth.txt",
sep="|",
header = F,
quote="",
fill=F,
stringsAsFactors = F,
numerals ="no.loss",
col.names = c("TweetId", "Date and Time", "Tweet"))
如您所见,“Children”
s“中的撇号已更改为€™代码>
无论撇号出现在何处(即使是倒装形式),情况都是如此
读作
574407194961039360 Sun Mar 08 03:12:01 +0000 2015 Frankie the dog ‘sniffs out cancer’ http://bbc.in/1COjVHM
在这里,“
被转换成和”
被转换成™代码>
如何确保这些符号按原样读取。请尝试read.table()
中的encoding=“UTF-8”
参数
574407194961039360|Sun Mar 08 03:12:01 +0000 2015|Frankie the dog ‘sniffs out cancer’ http://bbc.in/1COjVHM
574407194961039360 Sun Mar 08 03:12:01 +0000 2015 Frankie the dog ‘sniffs out cancer’ http://bbc.in/1COjVHM