• 相关产品 +
  • 相关服务 +
  • 相关应用 +
  • 相关案例 +
  • 相关下载 +

咨询信息

我们的产品覆盖了化学信息学,生物信息学,以及实验室信息管理
针对您的研究需求

我们为您选择最适合您的产品
上传时间:2018-07-27 11:46:45

蛋白质组学质谱数据分析计算机配置原则
 

随着近年来质谱仪器通量越来越高,随之而来的如何采购最合适的搜库硬件的问题也被越来越多的提到。总的来说,现在计算机硬件提升及成本降低的速度比质谱数据产生量的速度还是快一些的,因此在合适的硬件环境下,我们的搜库速度应该比数据产生的速度能快上不少。但是质谱公司在推荐新的高性能质谱的同时,并不一定能够给出最合理的计算机硬件采购方案,本文在解释计算机硬件性能与搜库速度的相关性的同时,也给出2017年的计算机市场采购的一些推荐方案。

首先,我们需要评估我们的软件环境,有的软件支持64位系统而有的不支持,有的软件支持并行多处理器而有的只能单核,有的需要在线提交数据而有的可以单机运行,所以首先需要收集以下信息来评估采用何种软硬件环境。
 

表1 软件环境

因素 说明 备注
操作系统 Linux、Windows XP、Windows 7、Windows Server 2008-2012、Win 10 Windows 7 64bit是目前最通用的蛋白质组学分析系统平台,在需要高性能计算的平台中Server 2008也是一个备选方案,2012可能不兼容某些质谱厂商软件。不要继续使用XP系统,大大限制各类软件应用。大多数质谱软件都基于windows,因此不推荐Linux为主系统。由于Win8系统自身的因素,不建议使用。Win10系统大多质谱分析软件可以支持,但是家庭版不支持Mascot的远程桌面托管,AB Sciex的数据转化插件也不支持Win10。
系统位数 32位、64位 64位操作系统能够向下兼容大部分软件,而32位系统限制硬件充分发挥其性能,故不推荐
OS语言 英文,中文 由于部分仪器配套软件不支持中文,并且在命名文件路径时不注意引入的中文输入状态下的字符容易引起乱码,推荐使用英文的操作系统,可以下载安装语言包。
必备软件 Microsoft Office 2013、2016,Adobe等 大多数软件的数据输出格式是CSV,xls,pdf等
必备软件 Perl,R等编程类软件 部分软件运行或输出时需要调用此类软件,建议参考相关软件需求说明
  文本处理,压缩类软件,7zip,Ultraedit等 Fasta格式的数据需要相关的解压缩、文本处理软件才能编辑或压缩、解压缩
必备软件 Eset,McAfee杀毒软件 不要使用360一类的国产杀毒软件,对专业质谱软件经常误杀。windows7版本建议使用ESET,Server版本建议ESET收费版或McAfee
必备软件 ftp下载:Flashfxp、http:Chrome fasta文件下载一般需要支持ftp协议


其他类型的软件,如绘图软件、统计软件等,不在这里特别提及,根据自己需要安装。

 


用户往往会纠结于应该购买服务器还是工作站,预算有限的情况下,选择哪种配置更为合适等问题。我们下面从硬件的不同部分详细讲解,其性能与搜库、数据分析软件的关系。


表2 硬件承载类型

服务器 工作站 个人台式机
服务器价格由低到高不等,相差巨大。它应用于网络吞吐量大、磁盘读写大的环境,不是非常适合于蛋白质组学数据分析,但在规模较大的质谱实验室,由于产出数据量大,搜索请求均可通过网络递交的情况下,可以采用服务器架构来安装运行。
优点:支持分布式计算、多CPU、超大内存及存储空间,适合大项目、多任务分析;
缺点:必须Server版本操作系统,图形性能较差,驱动不完全,不一定支持Windows7系统,符合运算要求的硬件价格较贵。推荐品牌型号:Dell T630
应用于长时间运行的个人软件环境,在预算许可的情况下是最适宜承载蛋白质组学软件分析的平台。
优点:支持1-2CPU,支持128-256G大内存,兼容性好,可扩展性较好;
缺点:一般支持5个左右的硬盘空间,如需扩展存储空间,一般建议使用外置阵列存储柜,价格较为昂贵;
推荐方案:双CPU平台:Dell T7810,E5系列;单CPU平台联想ThinkStation P410等系列
个人台式机:在质谱仪器较少,无须经常分析大规模数据的情况下,较为经济的解决方案。
优点:兼容性好,价格便宜;
缺点:稳定性可能较差,扩展性差,最多支持24-36GB内存,最多支持1CPU。不推荐品牌机,兼容性扩展性较差,推荐组装机。


CPU:主要影响搜库性能的硬件,在同平台下,基本上多一个CPU即大致提高搜库速度一倍。同时处理的任务少,主要考虑CPU的主频(clockspeed),主频越高,速度越快,但要注意的是不同构架模式下不能直接比较,例如AMD处理器与Intel处理器。同样主频下,核心数目越多,则多线程处理速度越快。因此,首先我们需要确定我们最常使用的分析软件是否支持多CPU,我们购买的软件授权支持多少个CPU。CPU的核心数是重要的考量标准,单个CPU包含n个处理核心,通常我们称之为物理核,对于超线程技术而言,是将单个核心虚拟为多个线程,也称之为逻辑核,例如2核心4线程,但是并没有实际提升CPU的运算能力。 对于是应该选用单路工作站还是双路工作站,根据预算和任务量决定。
 

单一任务 如果不支持多核或有限个核,并且我们经常在此平台下就运行单一软件或单任务,那么推荐个人台式机i7 7740K或工作站E3系列(E3-1280 V6)CPU
http://cpubenchmark.net/singleThread.html此表格中越靠前的CPU,单任务性能越好;
多任务 如果我们经常需要进行多任务搜索或运行多个分析软件,或者我们的软件支持多核并行分析,那么推荐个人台式机i9或工作站E5系列CPU
http://cpubenchmark.net/high_end_cpus.html该表中越靠前多任务性能越好
目前性价比还不错,比较合算的推荐E5-2696 V3,当然预算充足的情况下,i9-7980XE是目前最好的方案。


内存:计算缓存部件。数据库的搜索,检索任务的加载均需要大量的内存支持,因此内存越大,搜库任务可以加载进内存的信息越多,相当于提升了搜库的速度。而目前NCBInr数据库的库容量本身就达到了20GB左右,普通台式机内存远小于该数据库,进行搜库时需要不停的从硬盘中读取数据库信息,从而减缓搜库效率。另外如果需要进行大量的Silac,LFQ分析定量的话,也需要大量的谱图匹配分析操作,对内存需求也较大。因此,如果平时搜索任务较少,规模较小,不需要经常搜索NCBInr库的情况下,建议至少16GB内存;如果分析任务较多,大量的定量需求和结果优化计算时,建议32-128GB内存。

硬盘:硬盘是主要的程序存储和质谱、搜库文件存储介质,其容量和速度是主要的考虑因素。在一次搜库操作中,CPU和内存在搜索过程中起了主要的作用,但准备读入数据库、结果文件写入硬盘、拷贝庞大的原始文件时,硬盘速度是主要瓶颈。部分搜索软件会产生大量的临时文件,对硬盘的产生的负荷也非常高。
在预算充足、且经常需要进行大规模数据分析的情况下,SSD RAID0成为提升效果的最佳方案,大大提高了分析的速度。将分析完毕的数据定时转移到存储用的普通硬盘即可充分确保SSD发挥搜索性能。磁盘阵列方案:高性能兼顾大容量,SSD RAID0 512GB/1TB*2组合,并配备3TB蓝盘/黑盘*n作为存储盘。如搜索需求不是非常大或预算有限的情况下,建议采用普通硬盘方案(500G SSD+6TB HDD),可以选择企业级金盘作为性能上的弥补。
高速SSD 三星840EVO,PRO,WD 企业级金盘、黑盘、蓝盘。

网络传输:1000Mb高速局域网+2Mb以上宽带
大多数情况下我们需要数据分析平台与质谱仪器连接以传输数据文件,因此千兆级别的局域网是必要的,有些软件支持实时文件产生实时搜库,也需要高速局域网支持;数据库的更新、blast、蛋白信息查询等操作也需要高速互联网支持,而目前杀毒软件基本上也能有效防护常见病毒的传播,所以在搜索平台上接入高速互联网是有必要且安全性有保证的方案。目前最常见的病毒传播介质依然是U盘传播,因此不安装杀毒软件或计算机不接入网络也就无法更新杀毒软件是计算机中毒的最大来源,而非网络连接。

针对常用的Mascot搜库流程,我们简单的阐述下其搜索流程、参数和硬件的相关性

1.Fasta数据库,在database配置界面中有一项参数memory map和memory lock,设为-1时表明该数据库在第一次使用时映射入内存进行加速和永久锁定在内存中加速。在大内存系统中,常用数据库如果设置为locked,则可保证搜库时无须再读取硬盘中的fasta文件。但如果fasta数据库非常大而内存不足时,则会报错无法继续搜库。对于128GB内存的系统,将NCBInr锁定于内存可以有效提升搜库速度,而16GB的系统则无法实现这项加速。NCBnr数据库的更新非常快,因此需要对最新序列进行及时跟进的话,建议在Mascot的database configuration中将NCBInr设定为monthly update,稳定而快速的互联网连接能够保证更新效率。

2. 数据提取转换:mascot与多种质谱软件联用或者单独可以使用Distiller来提取原始谱图,因此处理速度取决于上游软件的运行效率。对于Mascot Distiller软件,在16G内存条件下可以运行,但是速度慢只能执行单任务,建议使用32G以上内存。

3. 搜库:搜库的主要时间耗费在数据准备和数据搜索上,因此和CPU速度及数量、内存大小、硬盘速度均密切相关。因此在预算充足的情况下,授权的CPU及硬件中的CPU数量越多,相应的搜库速度也越快。当预算有限只有单个CPU时,单个CPU的内核的速度越快,则搜库速度也越快,如i7-7740K是目前单核最快的CPU。
Mascot的授权是针对CPU 内核数量的,1个CPU的license做搜库运算时调用4个core。那么相应地,2个CPU的license需要8个core,3个CPU的license可以使用双路6核CPU。

4.搜库结果临时文件及最终结果生成:搜库过程中会产生大量临时文件,如果安装了实时扫描的杀毒软件以及最终结果生成时也需要进行蛋白组装和文件生成,此时的硬盘速度起了比较重要的作用,SSD Raid系统能够大大提升此时的处理速度;

5.定量、潜在翻译后修饰寻找:SILAC,LFQ等定量方法需要访问大量的原始谱图进行母离子拟合及定量,翻译后修饰分析error tolerant则需要大量比对谱图与可能修饰的信息,此阶段需要大量的硬盘读写和大容量内存,CPU的计算也处于高负荷状态。

6.结果评估与大规模数据组装:如果通过局域网访问搜库结果,则最好使用千兆局域网;如果大数据集结果需要使用诸如Scaffold、PD、Perseus之类的评估软件,那么内存容量尽可能需要大,硬盘速度也比较重要。

以上的配置,可以根据预算和使用需求酌情调整,内存至少16G,硬盘虽然对速度有一定的影响,SSD的大小对速度提升没有明显差异,所以可以不做硬性要求,并且由于价格也不占主要的预算比例,所以预算的主要变化还是对CPU的选择上的差异。