Database 如何将Pubchem(NCBI)提供的数据中提到的所有IUPAC名称提取到文本文件中?

Database 如何将Pubchem(NCBI)提供的数据中提到的所有IUPAC名称提取到文本文件中?,database,artificial-intelligence,machine-learning,pubchem,Database,Artificial Intelligence,Machine Learning,Pubchem,我想从Pubchem数据库中提到的所有IUPAC名称中建立一些长度的前缀和后缀列表,以便在我的项目中进一步使用它们作为功能。因此,我希望所有IUPAC化学名称都以文本文件或某种格式存在,以便提取这些列表 Thanks. 听起来你需要这样的东西 您也可以在中搜索大多数,但我未能找到完整集的下载链接 在我们的实验室里,我们得到了一张Cd(?)和质谱数据库,其中包含了作为文本文件的(完整的?——它得到了大约250000种物质)数据库。也许你可以通过

我想从Pubchem数据库中提到的所有IUPAC名称中建立一些长度的前缀和后缀列表,以便在我的项目中进一步使用它们作为功能。因此,我希望所有IUPAC化学名称都以文本文件或某种格式存在,以便提取这些列表

                         Thanks. 

听起来你需要这样的东西

您也可以在中搜索大多数,但我未能找到完整集的下载链接


在我们的实验室里,我们得到了一张Cd(?)和质谱数据库,其中包含了作为文本文件的(完整的?——它得到了大约250000种物质)数据库。也许你可以通过一些供应商得到

pubchem网站提供您通过ftp下载他们的数据转储。为什么不使用它呢?

可以通过ftp从PubChem网站下载PubChem数据。可在此处获得可用数据的完整说明:

对于IUPAC名称的问题特别感兴趣的是,可从ftp站点的“复合附加”部分下载数据:

此位置的自述文件Extras文件详细描述了数据。对于IUPAC名称,提供了以下信息:

CID-IUPAC.gz:

这是所有CID及其计算的IUPAC名称的列表。 它是一个gzip文本文件,每行有CID、tab、IUPAC。笔记 名称可能包含UTF8字符

今天(2020年4月23日)的下载包含102586778行。信息摘录如下所示

> head CID-IUPAC
1       3-acetyloxy-4-(trimethylazaniumyl)butanoate
2       (2-acetyloxy-3-carboxypropyl)-trimethylazanium
3       5,6-dihydroxycyclohexa-1,3-diene-1-carboxylic acid
4       1-aminopropan-2-ol
5       (3-amino-2-oxopropyl) dihydrogen phosphate
6       1-chloro-2,4-dinitrobenzene
7       9-ethylpurin-6-amine
8       2,3-dihydroxy-3-methylpentanoic acid
9       (2,3,4,5,6-pentahydroxycyclohexyl) dihydrogen phosphate
11      1,2-dichloroethane

该文本文件仅包含72000个名称,但我需要更多,因为我的项目中使用的培训文件包含超过10万个名称。因此,请帮助我找到从Pubchem数据库提取名称的方法。