技术中心

TECHNOLOGY

ChemCurator用户使用手册

1.文档目的

ChemCurator可以提取专利文档中Compound 和Markush结构,本文档主要介绍Compound 和Markush结构的提取步骤。


2.实例化合物的提取

2.1 文档的导入

在ChemCurator的File>project  选择不同的文档导入方式。From file表示导入文档的pdf或者xml文档格式。如果是专利的话,可以通过Google patents的方法,输入专利号进行导入。也可以通过IFI Claims进行导入。

对于文件的导入,导入的时间和文档的大小有关,如果文档比较大的话,导入时间会长一些。


1606104150117752.png


2.2 单个化合物结构的提取

文档导入完成后,可以看到化学名称和图片结构是灰色高亮显示,表示这个名称和结构已经识别。可以点击灰色的名称结构,然后可以看到软件界面的下方会出现相应的结构。

可以双击结构,打开Marvin编辑器对结构进行编辑


1606104226107704.png


如果想要将感兴趣的结构收集并导出,可以新建一个compound list. 选中文档,右键选择New>Compound.


1606104270605371.png


选择感兴趣的结构,将下方的结构拖到右侧的Compound List


1606104289139422.png

软件会自动更加结构计算出相应的SMILES.如果点击选择compound, 软件会自动定位并返回化合物在文档中的位置,方便后续的检查和浏览。




2.3 批量化合物的提取

ChemCurator中提供批量结构提取功能,可以添加结构筛选的功能,将符合特定结构的化合物提取出来。方法如下:

可以对化合物的数量进行限制。也可以基于子结构,相似性结构来筛选,筛选出符合特定提问结构的化合物。点击Substructure 后,会跳转出Marvin编辑器用户导入提问结构

1606104441990118.png


2.4 Compound的导出

对于compound list中的化合物,如果要做进一步的分析,可以导出各种常见的结构文件格式,包括sdf, mol,smi等

1606104738688723.png

3.Markush结构的提取

3.1 Markush骨架和R-Group提取

首先选中文档,新建一个Markush,然后利用OSR工具,能够识别文档中的骨架结构,将该结构拖拽到右侧的Scaffold中。系统会自动根据Scaffold的骨架生成相应的R-group的结构框。

我们只需要把相应的R-group拖拽到相应的R-group的结构框中,就可以完成整个Markush的提取。

选中相应的R-group,系统会自动返回到文档中的位置。

1606111970623960.png


3.2 Markush的枚举

Markush提取完成后,可以对Markush进行枚举。枚举后的结果可以导入做进一步的分析

1606112037796174.png


3.3 Markush结构的验证

当Markush提取完成后,我们可以把自己内部的化合物和现有的Markush进行比较,验证化合物是否被Markush的空间保护。

点击右侧的导入按钮,导入化合物的sdf或者mol格式,导入完成后,结构会有红色高亮和绿色高亮。红色高亮表示该化合物不在Markush的空间范围里。绿色高亮表示化合物落在该Markush的保护空间中。

点击红色高亮的化合物,可以查看该化合物具体哪个基团与Markush结构不匹配,从而做进一个的修饰。

1606112190265936.png