将中的文本转换为data.frame
我有以下文本数据的多条记录(这是一条记录)。我想将此文本转换为data.frame。我想做一些列标题,如轨迹、定义、加入等。。。 这项任务最简单的解决方案是什么 特征位置/限定符 资料来源1..477 /有机体=“丙酸假丝酵母” /mol_type=“基因组DNA” /隔离源=“长江口沉积物” /db_xref=“分类单元:363279” /clone=“Y4\u Winter\u 53” /country=“中国” /PCR_primers=“fwd_名称:amx368f,fwd_序列: TTCGCAATGCGAAGG,版次名称:amx820r,版次顺序: AAAACCTCTACTAGTGCCC“ rRNA 477 /product=“16S核糖体RNA” 来源将中的文本转换为data.frame,r,text,dataframe,R,Text,Dataframe,我有以下文本数据的多条记录(这是一条记录)。我想将此文本转换为data.frame。我想做一些列标题,如轨迹、定义、加入等。。。 这项任务最简单的解决方案是什么 特征位置/限定符 资料来源1..477 /有机体=“丙酸假丝酵母” /mol_type=“基因组DNA” /隔离源=“长江口沉积物” /db_xref=“分类单元:363279” /clone=“Y4\u Winter\u 53” /country=“中国” /PCR_primers=“fwd_名称:amx368f,fwd_序列: T
1 ttcgcaatgc CCGAAGGGT gacgaagcga CGCCGCGT GGGAAGAGG CCTTCGGGT 61 gtaaaccact gtcaggagtt AAGAATATA GAATGTTAA tagcattttt ATTTGACTAGTA 121 AGTCCAGAG GAAGCCAGG CTAACTGT GCCAGCCAGCC gcggtaatac AGAGGGTGGCA 181 AGCGTTGTTTC GGAATTG ggcgtaaaga gcacgtaggc ggccttgcaa GTCAGTTGG 241 aaatccttcc GCTTAACGG AGAACGCGG ctgatactac AGGGTAGGGAG 301 GAGGAGAGGGAA cttctggtgg AGGGTGAA tgcgtagata TCAGAGAGAA cgccggcggc 361 GAAGCGCT ctctggcccg aaactgacgc TGAGGTGCG aaagctaggg gagcaaacgg 421 gattagatac cccggtagtc CTAGCGTAA ACGATGGCA CTAGAGGGGTTTT
对我来说,这看起来与我识别的任何格式(dcf、fwf、yml等)都不太接近,不足以让“轻微扭曲”使解析成为可能。我可能错了,但这可能需要为您定制一个解析器。此外,数据并不完全适用于简单的
数据框架
:您希望从功能
和源代码
获得什么结构?这是从NCBI下载的GenBank文件(.gbk)。用元数据表示序列是一种流行的格式。可以上传原始文件吗?
LOCUS KU217831 477 bp DNA linear BCT 21-JUN-2016
DEFINITION Candidatus
ribosomal RNA gene, partial sequence.
ACCESSION KU217831
VERSION KU217831.1 GI:972300480
KEYWORDS .
SOURCE Candidatus
ORGANISM Candidatus
Bacteria; Planctomycetes; Planctomycetia; Candidatus Brocadiales;
REFERENCE 1 (bases 1 to 477)
AUTHORS Zheng,Y., Jiang,X., Hou,L., Liu,M., Lin,X., Gao,J., Li,X., Yin,G.,
Yu,C. and Wang,R.
TITLE Shifts in the community structure and activity of anaerobic
ammonium oxidation bacteria along an estuarine salinity gradient:
Shift in anammox along salinity gradient
JOURNAL Biogeosciences (2016) In press
REFERENCE 2 (bases 1 to 477)
AUTHORS Zheng,Y. and Hou,L.
TITLE Direct Submission
JOURNAL Submitted (29-NOV-2015) State Key Laboratory of Estuarine and
Coastal Research, East China Normal University, North Zhongshan
Road, Shanghai, Shanghai 200062, China
COMMENT Sequences were screened for chimeras by the submitter using Qiime
1.9.0.
##Assembly-Data-START##
Sequencing Technology :: Sanger dideoxy sequencing
##Assembly-Data-END##