研究完整人類基因組的DNA堿基,以字母A、T、C和G為代表(來源:NHGRI)
歷時22年,研究人員終于從頭到尾破譯了完整的人類基因組序列。
鈦媒體App4月1日消息,據科技日報,全球頂級期刊《Science》(科學)雜志今天凌晨連發6篇論文報告,公布了人類基因組測序的最新進展:國家人類基因組研究中心(NHGRI)組成的端粒到端粒(T2T)聯盟科學團隊,通過新的技術研究出全球第一個完整的、無間隙的人類基因組序列,首次揭示了高度相同的節段重復基因組區域及其在人類基因組中的變異。
這是對標準人類參考基因組,即2013年發布的參考基因組序列(GRCh38)的“重大升級”,增加了之前整條染色體上隱藏的DNA片段,破譯了缺失的大約2億個DNA堿基對以及2000多個新基因——占人類基因組的8%。
這篇研究成果意義重大。科研人員揭示的完整人類基因組序列,是世界上最復雜的謎題之一,這一研究使得人類第一次看到最完整的、無間隙的DNA堿基基因序列,對于人類了解基因組變異的全譜,以及某些疾病的遺傳貢獻至關重要,將會推動與癌癥、出生缺陷和衰老相關的研究與科學發展。
同時,這也是《Science》創刊141年來,首次在同一期雜志中連發6篇論文揭示人類基因組研究。
本論文作者,圣路易斯華盛頓大學醫學院遺傳學家TingWang(音譯:王庭)表示,此次擁有完整的基因組,一定會改善生物醫學研究。“毫無疑問,這是一項重要的成就。”
據中國科學報,人類基因組計劃參與者、中國科學院北京基因組研究所研究員于軍表示,假如把人類基因組序列比作一輛非常復雜的汽車,那么與20年前完成的人類基因組草圖相比,完整的新序列相當于增添了更多零件。
“我們看到了以前從未閱讀過的章節,”本論文通訊作者,華盛頓大學霍華德-休斯醫學研究所(HHMI)研究員EvanEichler(艾希勒)表示,這是全行業的一件大事。
Science封面圖
研究人員到底破譯了什么?人類基因組由超過60億個獨立的DNA堿基、大約2-3萬個蛋白質編碼基因(整個基因仍未有統一答案)組成,與黑猩猩等其他靈長類動物的數量差不多,分布在23對染色體上。為了讀取數以萬計的基因組,科學家們首先將所有的DNA鏈切成幾百到幾千個單位長度的DNA片段。然后用測序機器讀取每個片段中的各個堿基,科學家們試圖按照正確的順序組裝這些片段,就像拼湊一個復雜的拼圖。
2001年2月12日,由6國科學家共同參與的國際人類基因組計劃首次公布人類基因組圖譜及初步分析結果;2003年4月15日,公布了人類基因組序列草圖。
然而,由于技術限制,當初的人類基因組計劃留下了大約8%的“空白”間隙。這部分很難被測序,由高度重復、復雜的DNA塊組成,其中包含功能基因以及位于染色體中間和末端的著絲粒和端粒。
實際上,核心的挑戰在于,基因組的某些區域反復重復相同的堿基。重復的區域包括著絲粒和核糖體DNA等,過去無法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。
而且大多數細胞包含兩個基因組--一個來自父親,一個來自母親。當研究人員試圖組裝所有的片段時,來自父母雙方的序列可能混合在一起,掩蓋了個體基因組內的實際變異。
如今,研究人員通過新的納米機器設備與核心技術,實現了新的無間隙版本T2T-CHM13,由30.55億個堿基對和19969個蛋白質編碼基因組成。增加了近2億個堿基對的新DNA序列,包括99個可能編碼蛋白質的基因和其中近2000個需要進一步研究的候選基因。
這些候選基因大多數是失活的,但其中115個仍然可能表達。團隊還在人類基因組中發現了大約200萬個額外的變異,其中622個出現在與醫學相關的基因中。此外,新序列還糾正了GRCh38中的數千個結構錯誤。
近端著絲粒染色體的顯示圖樣(來源:論文)
具體而言,新序列填補的空白包括人類5條染色體的整個短臂,并覆蓋了基因組中一些最復雜的區域。其中包括在重要的染色體結構中及其周圍發現的高度重復的DNA序列,如染色體末端的端粒和在細胞分裂過程中協調復制染色體分離的著絲粒。
此外,新序列還揭示了以前未被發現的節段重復,即在基因組中復制的長DNA片段,并揭示了關于著絲粒周圍區域的前所未見的細節。這一區域內的變異性可能為人類祖先如何進化提供新證據。
值得一提的是,本研究成果的關鍵進展,其實是利用了新的技術設備——英國牛津納米孔技術公司和太平洋生物科學公司制造的快速迭代的基因測序機器。
早在2017年,國家人類基因組研究中心(NHGRI)負責人AdamPhillippy(亞當·菲利皮),以及加州大學圣克魯茲分校(UCSC)的凱倫·米加意識到,新的納米孔機器實現了一次準確讀取100萬個DNA堿基的能力,可以為最終解決基因組難點打開了大門。
大約在同一時間,華盛頓大學霍華德-休斯醫學研究所(HHMI)EvanEichler(艾希勒)領導的科研團隊已經證明,使用太平洋生物科學公司的設備技術,可以解決更復雜形式的遺傳變異技術。
因此,三人一起創辦了端粒到端粒(T2T)聯盟,利用全球約100名科學家團隊資源,使其加快了研究佳偶。
隨后,該團隊連續六個月不間斷地利用快速迭代的納米孔基因測序機器,并請來幾十位科學家來組裝這些基因片段并分析結果。最終利用設備、技術等,實現了長讀數測序讀數,并將長讀測序與牛津納米孔的數據相結合,準確率超過了99%,填補了全球基因學研究的空白。
一直到2020年夏天,該團隊已經拼上了兩條染色體。在新冠疫情爆發的期間,團隊通過Slack等通訊工具進行***工作,獲得了另外21條染色體,將每個染色體從一端或端粒排序到另一端。而且,科研人員人員還試圖組裝基因組中最難的區域,即著絲粒中高度重復的DNA序列。
最終,通過長時間的研究與團隊合作,該團隊成功實現了對每個染色體進行了測序,包含了編碼用于制造核糖體的RNA的基因的多個拷貝,總共400個。
2021年6月,這份研究成果首次發表在預印版平臺bioRxiv上。經過同行評議等,如今一系列論文登上了《Science》(科學)雜志。
研究人員在會后采訪中表示,下一階段的研究將對不同人的基因組進行測序,以充分掌握人類基因的多樣性、作用以及人類與近親、其它靈長類動物的關系。
年增速超20%,中國百億基因市場前景廣闊隨著生物學技術的不斷發展,新的行業層出不窮,本次研究成果所屬的中國基因測序行業是一個百億級市場,擁有廣闊的發展前景。
根據千際投行的研究統計數據顯示,早在2019年,基因測序所在的全球生物制品行業市場規模就達到了3172億元,未來五年有望達到萬億級別。其中,2019年中國基因測序行業市場規模約為149億元,年增速超20%。
近年來,基因測序行業得到迅速發展,吸引了大量資本和企業的進入。從產業上下游來看,基因測序產業鏈主要包括了上游儀器、中游服務提供商以及下游終端應用三個環節。涉及到的公司包括華大基因、達安基因、藥明康德,以及互聯網巨頭蘋果公司、亞馬遜、谷歌、微軟等。
整個產業看似簡單,但上游的基因測序儀及配套試劑是整個產業鏈壁壘最高的部分,下游終端應用還涉及領域覆蓋面非常廣,既包括醫療領域的人體基因組、人體微生物基因組以及基礎研究領域,還包括非醫療領域的環境治理、石油存儲探測、農牧業配種等。
實際上,早在幾十年前,醫學界就對此有過嘗試,將狒狒的心臟移植給了一個罹患先天性心臟病的孩子。如今,通過嵌合的方式,通過基因編輯的方式,甚至是通過合成生物學的方式,實現了豬心臟在人類身上的移植。
華大集團CEO尹燁曾表示,其實,今天人類進入了生命時代,我們關心的則是自身的基因和健康,以此就將去整合物理世界、信息世界和生命世界。
在應用場景不斷拓寬,測序能力進一步加強的共同促進作用下,全球基因測序行業市場規模將不斷增長,中國基因行業市場規模雖然與全球頭部企業差距較大,但是在國內市場中仍然占據較大的優勢,未來要想提高國際市場份額,還需進一步加強技術研發,未來發展具有巨大的想象空間。
今天,新的基因組序列研究成果,是科研人員必不可少的第一步,也是實現商業化的重要一步。
EvanEichler(艾希勒)表示,“現在我們有了一塊羅塞塔石碑(注:一塊***于公元前196年的花崗閃長巖石碑,解讀出已經失傳千余年的埃及象形文之意義與結構),可以在未來研究數十萬個其他基因組的完整編譯。”
(本文首發鈦媒體App,作者|李佳能,編輯|林志佳)