Database 如何将Pubchem(NCBI)提供的数据中提到的所有IUPAC名称提取到文本文件中?
我想从Pubchem数据库中提到的所有IUPAC名称中建立一些长度的前缀和后缀列表,以便在我的项目中进一步使用它们作为功能。因此,我希望所有IUPAC化学名称都以文本文件或某种格式存在,以便提取这些列表Database 如何将Pubchem(NCBI)提供的数据中提到的所有IUPAC名称提取到文本文件中?,database,artificial-intelligence,machine-learning,pubchem,Database,Artificial Intelligence,Machine Learning,Pubchem,我想从Pubchem数据库中提到的所有IUPAC名称中建立一些长度的前缀和后缀列表,以便在我的项目中进一步使用它们作为功能。因此,我希望所有IUPAC化学名称都以文本文件或某种格式存在,以便提取这些列表 Thanks. 听起来你需要这样的东西 您也可以在中搜索大多数,但我未能找到完整集的下载链接 在我们的实验室里,我们得到了一张Cd(?)和质谱数据库,其中包含了作为文本文件的(完整的?——它得到了大约250000种物质)数据库。也许你可以通过
Thanks.
听起来你需要这样的东西 您也可以在中搜索大多数,但我未能找到完整集的下载链接
在我们的实验室里,我们得到了一张Cd(?)和质谱数据库,其中包含了作为文本文件的(完整的?——它得到了大约250000种物质)数据库。也许你可以通过一些供应商得到 pubchem网站提供您通过ftp下载他们的数据转储。为什么不使用它呢?可以通过ftp从PubChem网站下载PubChem数据。可在此处获得可用数据的完整说明: 对于IUPAC名称的问题特别感兴趣的是,可从ftp站点的“复合附加”部分下载数据: 此位置的自述文件Extras文件详细描述了数据。对于IUPAC名称,提供了以下信息: CID-IUPAC.gz: 这是所有CID及其计算的IUPAC名称的列表。 它是一个gzip文本文件,每行有CID、tab、IUPAC。笔记 名称可能包含UTF8字符 今天(2020年4月23日)的下载包含102586778行。信息摘录如下所示
> head CID-IUPAC
1 3-acetyloxy-4-(trimethylazaniumyl)butanoate
2 (2-acetyloxy-3-carboxypropyl)-trimethylazanium
3 5,6-dihydroxycyclohexa-1,3-diene-1-carboxylic acid
4 1-aminopropan-2-ol
5 (3-amino-2-oxopropyl) dihydrogen phosphate
6 1-chloro-2,4-dinitrobenzene
7 9-ethylpurin-6-amine
8 2,3-dihydroxy-3-methylpentanoic acid
9 (2,3,4,5,6-pentahydroxycyclohexyl) dihydrogen phosphate
11 1,2-dichloroethane
该文本文件仅包含72000个名称,但我需要更多,因为我的项目中使用的培训文件包含超过10万个名称。因此,请帮助我找到从Pubchem数据库提取名称的方法。