由于格式问题,导入R数据时出现问题
我正在尝试将txt数据导入R;然而,由于txt文件的独特格式,我不确定如何做到这一点。我肯定觉得这个问题与txt文件被格式化为使用列名排列列的事实有关;但是,由于它是一个文本文件,因此使用了多种空间。例如:由于格式问题,导入R数据时出现问题,r,R,我正在尝试将txt数据导入R;然而,由于txt文件的独特格式,我不确定如何做到这一点。我肯定觉得这个问题与txt文件被格式化为使用列名排列列的事实有关;但是,由于它是一个文本文件,因此使用了多种空间。例如: Gene Chromosomal Swiss-Prot MIM Description name position AC Entry name code ______________
Gene Chromosomal Swiss-Prot MIM Description
name position AC Entry name code
______________ _______________ ______________________ ______ ______________________
A3GALT2 1p35.1 U3KPV4 A3LT2_HUMAN Alpha-1,3-galactosyltransferase 2 (EC 2.4.1.87) (Isoglobotriaosylceramide synthase) (iGb3 synthase) (iGb3S) [A3GALT2P] [IGBS3S]
AADACL3 1p36.21 Q5VUY0 ADCL3_HUMAN Arylacetamide deacetylase-like 3 (EC 3.1.1.-)
AADACL4 1p36.21 Q5VUY2 ADCL4_HUMAN Arylacetamide deacetylase-like 4 (EC 3.1.1.-)
ABCA4 1p21-p22.1 P78363 ABCA4_HUMAN 601691 Retinal-specific phospholipid-transporting ATPase ABCA4 (EC 7.6.2.1) (ATP-binding cassette sub-family A member 4) (RIM ABC transporter) (RIM protein) (RmP) (Retinal-specific ATP-binding cassette transporter) (Stargardt disease protein) [ABCR]
ABCB10 1q42 Q9NRK6 ABCBA_HUMAN 605454 ATP-binding cassette sub-family B member 10, mitochondrial precursor (ATP-binding cassette transporter
因此,我无法导入任何数据。因为它是用空格对齐的文本,所以空格的数量根本不一致
这是我正在使用的数据表的链接:每个字段都有固定的宽度。因此,您可以使用该函数读取文件 下面的代码读取输入文件(假设该文件只有行,没有标题)
这是一个固定宽度的文件。这个答案可能对你有所帮助:这是否回答了你的问题?这工作做得很好!非常感谢你!我知道一定有一个我不知道的简单方法!
f = read.fwf('input.txt', c(14,16,11,12,7,250), strip.white=T)
colnames(f) = c('Gene name', 'Chromosomal position', 'Swiss-Prot AC',
'Swiss-Prot Entry name', 'MIM code', 'Description')