R不发出警告,只从txt文件中读取一些数据

R不发出警告,只从txt文件中读取一些数据,r,csv,text-files,R,Csv,Text Files,我对发生的事一无所知。我正在尝试读取R中的utf-8 txt文件。这些值由制表符分隔。以下是该文件的摘录: LOCATION FORM TAG FEATURES 1 (1:1:1:1) bi P PREFIX|bi+ 2 (1:1:1:2) somi N STEM|POS:N|LEM:{som|ROOT:smw|M|GEN 3 (1:1:2:1) {ll~ahi PN STEM|POS:PN|LEM:{ll~ah|RO

我对发生的事一无所知。我正在尝试读取R中的utf-8 txt文件。这些值由制表符分隔。以下是该文件的摘录:

   LOCATION       FORM  TAG  FEATURES
1 (1:1:1:1)         bi   P   PREFIX|bi+
2 (1:1:1:2)       somi   N   STEM|POS:N|LEM:{som|ROOT:smw|M|GEN
3 (1:1:2:1)    {ll~ahi  PN   STEM|POS:PN|LEM:{ll~ah|ROOT:Alh|GEN
4 (1:1:3:1)         {l DET   PREFIX|Al+
5 (1:1:3:2) r~aHoma`ni ADJ   STEM|POS:ADJ|LEM:r~aHoma`n|ROOT:rHm|MS|GEN
6 (1:1:4:1)         {l DET   PREFIX|Al+ 
test <- read.csv(file = "quranic-corpus-morphology-0.4.txt",
                 sep = "\t", header = TRUE, skip = 56, 
                 stringsAsFactors = FALSE)
该文件可从以下位置下载:

以下是我尝试读取文件的方法之一:

   LOCATION       FORM  TAG  FEATURES
1 (1:1:1:1)         bi   P   PREFIX|bi+
2 (1:1:1:2)       somi   N   STEM|POS:N|LEM:{som|ROOT:smw|M|GEN
3 (1:1:2:1)    {ll~ahi  PN   STEM|POS:PN|LEM:{ll~ah|ROOT:Alh|GEN
4 (1:1:3:1)         {l DET   PREFIX|Al+
5 (1:1:3:2) r~aHoma`ni ADJ   STEM|POS:ADJ|LEM:r~aHoma`n|ROOT:rHm|MS|GEN
6 (1:1:4:1)         {l DET   PREFIX|Al+ 
test <- read.csv(file = "quranic-corpus-morphology-0.4.txt",
                 sep = "\t", header = TRUE, skip = 56, 
                 stringsAsFactors = FALSE)
返回

扫描错误(文件=文件,内容=内容,sep=sep,quote=quote,dec=dec,: 第78行没有4个元素

我也不知道78行有什么问题

为了获得干净的csv,我甚至尝试过从LibreOffice Calc另存为csv,它会返回此警告

此文档可能包含无法以当前选定的文件格式“文本CSV”保存的格式或内容

第135-140行:

(2:7:4:1)   quluwbi N       STEM|POS:N|LEM:qalob|ROOT:qlb|FP|GEN
(2:7:4:2)   himo    PRON    SUFFIX|PRON:3MP
(2:7:5:1)   wa      CONJ    PREFIX|w:CONJ+
(2:7:5:2)   EalaY`  P       STEM|POS:P|LEM:EalaY`
(2:7:6:1)   samoEi  N       STEM|POS:N|LEM:samoE|ROOT:smE|M|GEN
(2:7:6:2)   himo    PRON    SUFFIX|PRON:3MP

您需要告诉R将数据中的引号视为任何其他字符,否则它会将其其余部分视为字符串,直到引号结束

第62行(跳过56行后)似乎在第4列
中有
,位置:V | IMPF |(IV)LEM:'aAmana | ROOT:Amn | 3MP

尝试:

test <- read.csv(file = "quranic-corpus-morphology-0.4.txt",
                 sep = "\t", header = TRUE, skip = 56, 
                 stringsAsFactors = FALSE, quote="")

你能在你的问题中包括第78行吗?错误似乎是说R没有找到4列,即它找到的列少于或多于4列。我跳过了前56行的版权文本,所以78是相对的,我应该包括哪个行号?如果可能,请包括135-140。但首先检查以确保这些行的数据甚至有道理。