化学文档信息挖掘

在各种类型的科学文献中,如专利、期刊文献、企业内部文档中,封存着巨大的化学空间。这些化学信息以文本或者图片的方式分散在文档中,收集和分析这些信息是制药企业做药物研发决策的巨大挑战。

ChemAxon开发了一套化学文档信息挖掘工具来从不同语种的文档中提取化学信息。


Structure to Name (S2N):S2N让用户可以从化学结构生成IUPAC命名、传统名称或者CAS注册编号。自由基化合物,天然产物以及肽链的命名都可以支持。


Name to Structure (N2S):N2S可以将各种化合物名称转化为化学结构,包括IUPAC名称,系统名称,通用名,商品名和CAS编号。


图片1.png

亚洲语言支持:N2S可支持中文和日文。


Document to Structure (D2S):

是ChemAxon化学信息挖掘的核心应用。不仅可以处理各种类型的文档,它还应用OCR(Optical Content Recognition,图片文本识别)和OSR(Optical Structure Recognition, 图片化学结构识别)技术来从图片格式的PDF文档(如扫描版本的化学专利文献)中提取化学结构。一旦化学结构被提取出来,每个化学结构对应的文档位置也会一同返回。所有这些特性都是D2S成为化学文本挖掘和专利分析的首选工具。


Document to Database (D2DB):

对于有着大量内部文档的公司来说,D2DB可以访问他们的文档存储系统,对所有化学信息进行索引,并提供化学结构和相关数据的检索功能。对于使用SharePoint来进行文档管理的公司来说,JChem for SharePoint可以提供类似的功能。


ChemCurator:

是一个可以从专利、期刊文献和其他类型文档快速提取化合物、Markush化学结构和相关生测数据的高效桌面应用程序。结合ChemAxon的文本信息挖掘技术、化学结构处理技术和Markush技术,ChemCurator可以在文档中提取并高亮显示化学结构,使用户能够以半自动交互式的方式提取化学信息或者组建Markush化学结构,很大程度上减少处理文献的时间。相对于Plexus Mining全自动的文档处理方式,ChemCurator通过自动信息提取结合手动信息校订的方式,提供更精确的化学信息提取结果。


1605840553737349.png