Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将中的文本转换为data.frame_R_Text_Dataframe - Fatal编程技术网

将中的文本转换为data.frame

将中的文本转换为data.frame,r,text,dataframe,R,Text,Dataframe,我有以下文本数据的多条记录(这是一条记录)。我想将此文本转换为data.frame。我想做一些列标题,如轨迹、定义、加入等。。。 这项任务最简单的解决方案是什么 特征位置/限定符 资料来源1..477 /有机体=“丙酸假丝酵母” /mol_type=“基因组DNA” /隔离源=“长江口沉积物” /db_xref=“分类单元:363279” /clone=“Y4\u Winter\u 53” /country=“中国” /PCR_primers=“fwd_名称:amx368f,fwd_序列: T

我有以下文本数据的多条记录(这是一条记录)。我想将此文本转换为data.frame。我想做一些列标题,如轨迹、定义、加入等。。。 这项任务最简单的解决方案是什么

特征位置/限定符 资料来源1..477 /有机体=“丙酸假丝酵母” /mol_type=“基因组DNA” /隔离源=“长江口沉积物” /db_xref=“分类单元:363279” /clone=“Y4\u Winter\u 53” /country=“中国” /PCR_primers=“fwd_名称:amx368f,fwd_序列: TTCGCAATGCGAAGG,版次名称:amx820r,版次顺序: AAAACCTCTACTAGTGCCC“ rRNA 477 /product=“16S核糖体RNA” 来源
1 ttcgcaatgc CCGAAGGGT gacgaagcga CGCCGCGT GGGAAGAGG CCTTCGGGT 61 gtaaaccact gtcaggagtt AAGAATATA GAATGTTAA tagcattttt ATTTGACTAGTA 121 AGTCCAGAG GAAGCCAGG CTAACTGT GCCAGCCAGCC gcggtaatac AGAGGGTGGCA 181 AGCGTTGTTTC GGAATTG ggcgtaaaga gcacgtaggc ggccttgcaa GTCAGTTGG 241 aaatccttcc GCTTAACGG AGAACGCGG ctgatactac AGGGTAGGGAG 301 GAGGAGAGGGAA cttctggtgg AGGGTGAA tgcgtagata TCAGAGAGAA cgccggcggc 361 GAAGCGCT ctctggcccg aaactgacgc TGAGGTGCG aaagctaggg gagcaaacgg 421 gattagatac cccggtagtc CTAGCGTAA ACGATGGCA CTAGAGGGGTTTT

对我来说,这看起来与我识别的任何格式(dcf、fwf、yml等)都不太接近,不足以让“轻微扭曲”使解析成为可能。我可能错了,但这可能需要为您定制一个解析器。此外,数据并不完全适用于简单的
数据框架
:您希望从
功能
源代码
获得什么结构?这是从NCBI下载的GenBank文件(.gbk)。用元数据表示序列是一种流行的格式。可以上传原始文件吗?

LOCUS       KU217831                 477 bp    DNA     linear   BCT 21-JUN-2016
DEFINITION  Candidatus 
            ribosomal RNA gene, partial sequence.
ACCESSION   KU217831
VERSION     KU217831.1  GI:972300480
KEYWORDS    .
SOURCE      Candidatus 
  ORGANISM  Candidatus 
            Bacteria; Planctomycetes; Planctomycetia; Candidatus Brocadiales;
            REFERENCE   1  (bases 1 to 477)
  AUTHORS   Zheng,Y., Jiang,X., Hou,L., Liu,M., Lin,X., Gao,J., Li,X., Yin,G.,
            Yu,C. and Wang,R.
  TITLE     Shifts in the community structure and activity of anaerobic
            ammonium oxidation bacteria along an estuarine salinity gradient:
            Shift in anammox along salinity gradient
  JOURNAL   Biogeosciences (2016) In press
REFERENCE   2  (bases 1 to 477)
  AUTHORS   Zheng,Y. and Hou,L.
  TITLE     Direct Submission
  JOURNAL   Submitted (29-NOV-2015) State Key Laboratory of Estuarine and
            Coastal Research, East China Normal University, North Zhongshan
            Road, Shanghai, Shanghai 200062, China
COMMENT     Sequences were screened for chimeras by the submitter using Qiime
            1.9.0.

           ##Assembly-Data-START##
           Sequencing Technology :: Sanger dideoxy sequencing
           ##Assembly-Data-END##