咨询信息

我们的产品覆盖了化学信息学,生物信息学,以及实验室信息管理
针对您的研究需求

我们为您选择最适合您的产品
上传时间:2016-08-01 09:27:06
在ChenAxon的Naming技术的强力支持下,Document to Structure (D2S) 成为从文档中提取化学信息的多功能应用程序。不同格式的文档中的不同类型的化学信息都能够被识别、提取出来。所有这些特性都是D2S成为化学文本挖掘、专利分析和内部文档管理的首选工具。
  • 产品特性
  • 产品演示
  • 常见问题
  • Document to Structure——从文档中提取化学信息



    在ChenAxon的Naming(化学结构与名称相互转化)技术的强力支持下,Document to Structure (D2S) 成为从文档中提取化学信息的多功能应用程序。不同格式的文档中的不同类型的化学信息都能够被识别、提取出来。它还应用OCR(Optical Content Recognition,图片文本识别)和OSR(Optical Structure Recognition, 图片化学结构识别)技术来从图片格式的PDF文档中提取化学结构。一旦化学结构被提取出来,每个化学结构对应的文档位置也会一同返回。所有这些特性都是D2S成为化学文本挖掘、专利分析和内部文档管理的首选工具。

    从文档中提取化学信息

    化学信息识别

    基于ChemAxon的化学结构和名称转化技术,各种类型的化学信息可以被识别出来并转化为化学结构,例如IUPAC名称,通用名,药物商品名,SMILES, InChI, CAS注册编号等。D2S还应用OSR技术将化学结构图片转化为化学结构。(D2S目前支持CLiDE, OSRA和Imago这三个OSR工具,但不提供这些工具的授权。用户需要通过它们的供应商获得授权。其中OSRA和Imago可免费获得授权。)D2S可以将化学结构图片与非结构图片(如IC50曲线图)区分开来,减少结果中的噪音。

    多样性

    D2S可支持各种文档,包括PDF, TXT, HTML, XML, MS Office文档 (DOC, DOCX, PPT,PPTX, XLS, XLSX), OpenOffice ODT等。Office文档中内嵌的化学结构对象(ChemDraw, SymyxDraw, MarvinSketch等)可以直接提取为化学结构。各种图片格式(如TIFF, BMP等)也可以支持。

    可读性

    从5.9版本开始,D2S可以开始处理图片格式的PDF文档,而不仅是文本格式的PDF文档。D2S采用OCR技术将图片PDF转化为文本,然后定位所有的化学信息。由于OCR技术的局限性,转化后的文本可能包含有错误。D2S通过一个内部纠错算法来识别常发生的OCR错误,并修正这些文本为正确的化学名称。因为很多的化学专利都是图片格式的PDF文档,这个功能对于专利信息挖掘十分有价值。




    可追溯性

    具有化学意义的文档(例如化学专利)可能有几百页的长度。研发人员如果想要在文档中找到某个特定的化合物,要花费很长的时间,尤其是这个化学结构是以文本的格式存在。通过D2S,PDF文档中提取出来的每个化学结构都和它对应的位置信息以及原始的化学信息(IUPAC名称,图片,SMILES等)一起提取出来。这可以为研发人员阅读化学专利节约数小时的时间。




    实用性

    D2S可以作为单独的工具使用。文档可以直接用MarvinView打开,提取的结果将在一个扁平表格中显示出来。如处理多个文档,可以通过命令行来运行D2S。D2S同时也整合到了ChemAxon的数据库管理工具Instant JChem和JChem for Office(在Instant JChem和JChem for Office中使用D2S需要额外的授权)。文档可以在这些工具中直接打开,D2S处理的结果可以作为数据表导入。D2S也可以作为ChemAxon组件包中的一部分在工作流工具中使用,如Pipeline Pilot和KNIME。跟ChemAxon的很多工具一样,D2S也可以通过命令行来进行批量处理,也可以通过API来开发客户化系统。

    为了更流畅的处理批量文档,D2DB应运而生。D2DB可以自动扫描整个文件系统或者Documentum仓库来逐个处理其中的文档,将其中所有的化学结构和文档信息做成索引,生成一个数据库。这些信息都可以通过Instant JChem或者Web应用程序来检索和浏览。

    Chemicalize.org – 发现Web页面上的化学结构

    ChemAxon将D2S的功能部署到了一个免费公开的网站chemicalize.org上,让用户可以从网页和文档中提取化学信息。提交的网页将通过网页浏览器(Webpage Viewer)打开,所有的化学信息将被转为2D化学结构。

    文档浏览器(Document Viewer)可以同样的方式处理PDF文件:通过本地浏览器打开文档,浏览所有从文本中识别出来的化学结构。所有的化学结构汇总到文档顶部,可供用户进行下载。点击顶部的化学结构,整个页面中提到这个化合物的文本或者图片都会高亮显示出来。所有提取出来的化合物将存放在网络服务器上,支持各种结构检索功能。更多信息请访问www.chemicalize.org。