• 相关产品 +
  • 相关服务 +
  • 相关应用 +
  • 相关案例 +
  • 相关下载 +

咨询信息

我们的产品覆盖了化学信息学,生物信息学,以及实验室信息管理
针对您的研究需求

我们为您选择最适合您的产品
上传时间:2016-04-13 14:56:26

本文介绍了蛋白质组学数据分析所需要的软硬件环境及其配置对处理速度的影响

随着近年来质谱仪器通量越来越高,随之而来的如何采购最合适的搜库硬件的问题也被越来越多的提到。总的来说,

现在计算机硬件提升及成本降低的速度比质谱数据产生量的速度还是快一些的,因此在合适的硬件环境下,我们的
搜库速度应该比数据产生的速度能快上不少。但是质谱公司在推荐新的高性能质谱的同时,并不一定能够给出最合
理的计算机硬件采购方案,本文在解释计算机硬件性能与搜库速度的相关性的同时,也给出2014年初的计算机市场
采购的一些推荐方案。
首先,我们需要评估我们的软件环境,有的软件支持64位系统而有的不支持,有的软件支持并行多处理器而有的只
能单核,有的需要在线提交数据而有的可以单机运行,所以首先需要收集以下信息来评估采用何种软硬件环境。

表1 软件环境

因素

说明

备注

操作系统

LinuxWindows XPWindows 7Windows  Server 2008-2012MacOS

Windows 7 64bit是目前最通用的蛋白质组学分析系统平台,在需要高性能计算的平台中Server 2008也是一个备选方案,2012可能不兼容某些质谱厂商软件。不推荐继续使用XP系统,大大限制各类软件应用。大多数质谱软件都基于windows,因此不推荐Linux为主系统

系统位数

32位、64

64位操作系统能够向下兼容大部分软件,而32位系统限制硬件充分发挥其性能,故不推荐

OS语言

英文版、中文版

通用性最强,部分仪器配套软件不支持中文

必备软件

Microsoft Office 2013Adobe Acrobt

许多数据分析软件输出格式为csvxlspdf等,均需要相关软件支持,部分数据库需要MS Access支持

必备软件

Active Perl, R等编程类软件

部分软件运行或输出时需要调用此类软件,建议参考相关软件需求说明

必备软件

7zipUltraedit等压缩、文本处理软件

fasta格式的数据需要相关的解压缩、文本处理软件才能编辑或压缩、解压缩

必备软件

EsetMcAfee杀毒软件

强烈不推荐安装360等国产杀毒软件,对专业软件的支持非常差,windows7版本建议使用ESETServer版本建议ESET收费版或McAfee

必备软件

InkScapePhotoshop绘图软件

矢量图的绘制转换推荐InkscapePhotoshop就不介绍了

必备软件

GraphPad PrismSimca-POriginSPSS等统计软件

根据需求选择

必备软件

ftp下载:FlashfxphttpChrome

fasta文件下载一般需要支持ftp协议

 



表2 硬件环境

因素

说明

备注

承载类型

服务器、工作站、个人台式机

    1. 服务器应用于网络吞吐量大、磁盘读写大的环境,不是非常适合于蛋白质组学数据分析,但在规模较大的质谱实验室,由于产出数据量大,搜索请求均可通过网络递交的情况下,可以采用服务器架构来安装运行。优点:支持分布式计算、多CPU、超大内存及存储空间,适合大项目、多任务分析;缺点:必须Server版本操作系统,图形性能较差,驱动不完全,不一定支持Windows7系统,价格较贵。推荐品牌型号:Dell        T620.

    2. 工作站:应用于长时间运行的个人软件环境,在预算许可的情况下是最适宜承载蛋白质组学软件分析的平台。优点:支持1-2CPU,支持128-256G大内存,兼容性好,可扩展性较好;缺点:一般支持5个左右的硬盘空间,如需扩展存储空间,一般建议使用外置阵列存储柜,价格较为昂贵;推荐方案:双CPU平台:Dell T7610E5系列;CPU平台联想 E32 E3系列

    3. 个人台式机:在质谱仪器较少,无须经常分析大规模数据的情况下,较为经济的解决方案。优点:兼容性好,价格便宜;缺点:稳定性可能较差,扩展性差,最多支持24-36GB内存,最多支持1CPU。不推荐品牌机,兼容性扩展性较差,推荐组装机。

CPU

工作站:最高E5-2697v2E3-1280v3

个人台式机:最高i7  4930K4770K

主要影响搜库性能的硬件,在同平台下,基本上多一个CPU即大致提高搜库速度一倍。同样主频下,核心数目越多,则多线程处理速度越快。因此,首先我们需要确定我们最常使用的分析软件是否支持多CPU,我们购买的软件授权支持多少个CPU如果不支持多核或有限个核,并且我们经常在此平台下就运行单一软件或单任务,那么推荐个人台式机i7 4770K或工作站E3系列CPU,同样条件下http://cpubenchmark.net/singleThread.html此表格中越靠前的CPU,单任务性能越好;

如果我们经常需要进行多任务搜索或运行多个分析软件,或者我们的软件支持多核并行分析,那么推荐个人台式机 i7 4930K或工作站E5系列CPUhttp://cpubenchmark.net/high_end_cpus.html该表中越靠前多任务性能越好

内存

16-128GB,频率1333-2666MHz

数据库的搜索,检索任务的加载均需要大量的内存支持,因此内存越大,搜库任务可以加载进内存的信息越多,相当于提升了搜库的速度。而目前NCBInr数据库的库容量本身就达到了20GB左右,普通台式机内存远小于该数据库,进行搜库时需要不停的从硬盘中读取数据库信息,从而减缓搜库效率。另外如果需要进行大量的SilacLFQ分析定量的话,也需要大量的谱图匹配分析操作,对内存需求也较大。因此,如果平时搜索任务较少,规模较小,不需要经常搜索NCBInr库的情况下,建议至少8GB内存;如果分析任务较多,大量的定量需求和结果优化计算时,建议32-128GB内存。

硬盘

高速SSD 三星840EVO,PRO, Crucial M550,

存储用HDD WD 绿盘3TB

混合用HDD 希捷 3TB ST3000VX000

硬盘是主要的程序存储和质谱、搜库文件存储介质,其容量和速度是主要的考虑因素。在一次搜库操作中,CPU和内存在搜索过程中起了主要的作用,但准备读入数据库、结果文件写入硬盘、拷贝庞大的原始文件时,硬盘速度是主要瓶颈。部分搜索软件会产生大量的临时文件,对硬盘的产生的负荷也非常高。

在预算充足、且经常需要进行大规模数据分析的情况下,SSD RAID0成为提升效果的最佳方案,大大提高了分析的速度。将分析完毕的数据定时转移到存储用的普通硬盘即可充分确保SSD发挥搜索性能。如搜索需求不是非常大或预算有限的情况下,建议采用普通硬盘方案。

方案1:高性能兼顾大容量,SSD RAID0 512GB/1TB*2组合,并配备3TB绿盘*n作为存储盘;

方案2:经济型,希捷3TB *n,兼顾经济性并满足日常使用,n>=3时可以考虑组RAID5,兼顾数据安全性。

显卡显示器

22-24寸高清显示器

许多软件不支持低分辨率显示模式,或有显示错误,因此主流的分辨率目前均在1680*1050或以上,建议配备独立显卡并采用较大分辨率的大屏幕显示器

网络环境

1000Mb高速局域网+2Mb以上宽带

大多数情况下我们需要数据分析平台与质谱仪器连接以传输数据文件,因此千兆级别的局域网是必要的,有些软件支持实时文件产生实时搜库,也需要高速局域网支持;数据库的更新、blast、蛋白信息查询等操作也需要高速互联网支持,而目前杀毒软件基本上也能有效防护常见病毒的传播,所以在搜索平台上接入高速互联网是有必要且安全性有保证的方案。目前最常见的病毒传播介质依然是U盘传播,因此不安装杀毒软件或计算机不接入网络也就无法更新杀毒软件是计算机中毒的最大来源,而非网络连接。

针对常用的Mascot搜库流程,我们简单的阐述下其搜索流程、参数和硬件的相关性。

  • Fasta数据库,在database配置界面中有一项参数memory map和memory lock,设为-1时表明该数据库在第一次使用时映射入内存进行加速和永久锁定在内存中加速。在大内存系统中,常用数据库如果设置为locked,则可
  • 保证搜库时无须再读取硬盘中的fasta文件。但如果fasta数据库非常大而内存不足时,则会报错无法继续搜库。对于128GB内存的系统,将NCBInr锁定于内存可以有效提升搜库速度,而16GB的系统则无法实现这项加速。NCBnr数据库的更新非常快,因此需要对最新序列进
  • 行及时跟进的话,建议在Mascot的database     configuration中将NCBInr设定为monthly update,稳定而快速的互联网连接能够保证更新效率。
  • 数据提取转换:mascot与多种质谱软件联用或者单独可以使用Distiller来提取原始谱图,因此处理速度取决于上游软件的运行效率
  • 搜库:搜库的主要时间耗费在数据准备和数据搜索上,因此和CPU速度及数量、内存大小、硬盘速度均密切相关。Mascot的授权是针对CPU 内核数量的,每单个授权支持4个核心,如i7 4770K,E3系列CPU都是4核心的,而E5系列CPU 则有8核心,i7 4930K为6核心。因此在预算充足的情况下,授权的CPU及硬件中的CPU数量越多,相应的搜库速度也越快。当预算有限只有单个CPU时,单个CPU的内核的速度越快,则搜库速度也越快,如E3-1280v3和i7 4770K是目前单核最快的CPU。
  • 搜库结果临时文件及最终结果生成:搜库过程中会产生大量临时文件,如果安装了实时扫描的杀毒软件以及最终结果生成时也需要进行蛋白组装和文件生成,此时的硬盘速度起了比较重要的作用,SSD Raid系统能够大大提升此时的处理速度;
  • 定量、潜在翻译后修饰寻找:SILAC,LFQ等定量方法需要访问大量的原始谱图进行母离子拟合及定量,翻译后修饰分析error tolerant则需要大量比对谱图与可能修饰的信息,此阶段需要大量的硬盘读写和大容量内存,CPU的计算也处于高负荷状态。
  • 结果评估与大规模数据组装:如果通过局域网访问搜库结果,则最好使用千兆局域网;如果大数据集结果需要使用诸如Scaffold、PD、Perseus之类的评估软件,那么内存容量尽可能需要大,硬盘速度也比较重要。


推荐配置(2014.1.1)

  • 高性能工作站:适于质谱数据量高,分析需求多,较高预算:Dell Precision     T7610工作站 CPU 双路E5-2697v2 ,内存128GB 1866MHz,硬盘,2.5英寸托盘三星840 PRO 1TB*4     Raid0,3.5英寸托盘希捷 3TB*5Raid5,显卡AMD Firepro,显示器 U2413 *2。价格在7-8W左右,适于2-4 CPU授权Mascot及各类支持并行计算的数据分析软件,如需扩展分布式并行计算或增加存储空间,可选配多个T7610工作站并部署Mascot  Cluster模式,主节点扩展硬盘阵列柜,可将存储空间扩展100TB以上。
  • 经济型工作站:适于质谱数据量中等,分析需求较单一,预算中等用户:Dell Precision     T7610或联想E32工作站,配备单CPU E5-2597v2或E3-1680v3,内存32GB 1866MHz,硬盘,希捷 3TB系统盘+西数3TB*4 存储盘。适于1-2 CPU授权Mascot及各类仅支持单线程运行的分析软件。价格在4-6W左右
  • 个人台式机:适于质谱数据量中等,分析需求较单一,预算较低:组装或品牌机:CPU i7 4770K,主板Z87支持64GB内存即可,内存64GB 2800MHz,硬盘:三星840 EVO 1TB*2     Raid0,希捷3TB*3 Raid5,显卡任意高清支持即可,显示器22-24英寸。价格在2W左右
  • 以上所有配置的CPU,内存,硬盘均可酌情降低以适应预算需求,CPU并无硬性要求,价格和性能基本成正比;内存16GB以下会产生瓶颈;硬盘也无硬性要求,SSD可大大提高文件处理速度,普通硬盘则在硬盘要求较高的分析步骤产生瓶颈。