“人類DNA序列是人類的真諦,這個世界上發生的一切事情,都與這一序列息息相關?!?/p>
——諾貝爾生理學與醫學獎獲得者杜伯克
在基因這本“生命天書”里,藏著有關健康的秘密,人類通過基因探索生命科學的腳步從未停歇。然而,對生命科學的探究離不開對基因數據信息的存儲、挖掘、管理。其數據信息的巨大規模、結構復雜、快速增長等特點,對信息系統的存儲能力、計算能力、擴展能力都提出了非常高的要求,成為許多科研單位進一步取得成果所面臨的難題。
生物信息學是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學和蛋白質組學兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。在序列對比的過程中將會產生巨量的數據,這對我們的存儲系統帶來了較大規模的挑戰。
現在用于存儲的硬盤容量每14個月會有一倍的增長,而基因序列的數據量則每5月左右會翻一番,例如:CeleraGenomics 和Sanger Centre 等主要基因研究機構都在管理數以萬億字節計的數據,其數據庫信息量已經超過美國國會圖書館全部藏書,也超過了人類開展生物學研究以來積累的數據量。
序列拼接是將測序生成的reads短片段拼接起來,恢復出原始的序列。該問題是序列分析的基本任務,是基因組研究成功與失敗的關鍵,拼接結果直接影響到序列標注,基因預測、基因組比較等后續任務?;蚪M序列的拼接也是基因組研究必須解決的首要難題。其困難不僅來自它的海量數據(以人類基因組序列為例,從數量為10兆級的片斷恢復出長度為億級的原始序列),而且源于它含有高度重復的序列。
從計算機方面來講,在拼接初期,會有大量的初始數據導入內存,然后對這些數據進行處理,因此,序列拼接對于計算機的內存量和計算能力都有非常大的需求。
生命科學類計算的核心內容是計算高性能、內存密集型和存儲密集型,結合有孚云多年的經驗,有孚云可為生命科學提供專業的方案如下:
計算能力
對于生命科學高性能計算需求而言,主要通過CPU綜合性能提供必需的浮點運算和整點運算,CPU的浮點運算能力能夠完成圖像處理、科學計算等需要更高精度計算的任務。有孚云依據生命科學計算特點,推薦使用高主頻Intel處理器,既能實現較高的計算處理性能,又在能效比、內存支持,以及CPU本身的架構上具有很大的優勢。
內存配置
在生命科學計算中需要高效實現先期數據的載入,這對計算節點內存容量的要求越來越高,有孚云主機支持處理器與內存配比為1:8,充分滿足了生命科學應用的實際需求。
存儲性能
海量存儲系統是生命科學計算的基礎條件,有孚云提供高性能的基于三副本的SSD存儲系統,10GB高速網絡接口構建分布式存儲資源,總體存儲容量可達到EB級,同時還通過多副本機制,保障了數據的安全,從根本上解決了生物信息學的數據存儲難題。
系統穩定
一套高穩定性的系統能夠使生命科學應用更加方便快捷,同時也能夠高效率的處理數據,保證業務不中斷,有孚云平臺持續提供作業調度、集群監控和數據管理能力,并結合有孚云高性能的服務器、靈活的彈性擴展特性和超高的存儲性能,從各個方面保證了高性能運算平臺的穩定性,降低了系統故障率,可為生命科學提供持續不間斷的計算服務。
生命科學已經開始從根本上改變我們的生活。以創新技術助力科研發展是有孚網絡一直以來的努力方向,有孚網絡將不斷發揮自身優勢,為各領域科學研究提供強有力的IT支持,助力前沿科技成果的取得,加快創新成果轉化應用,讓科技造福社會。