人類的基因組常被比作是一本書寫生命的“天書”,只有A、T、C、G四種“字母”——代表構成DNA的四種堿基,但字數多達60億個,分布在23對染色體中,無窮的組合蘊含著人類進化、生老病死的無數奧秘。
21世紀之初,人類基因組序列的第一版草圖問世,盡管并不完整,卻已經在生物醫學領域產生了深遠的影響,為臨床研究、藥物開發和醫療實踐的發展提供指引。
時隔二十一年,人類基因組測序領域迎來了新的里程碑:一份更完整的、無間隙的人類參考基因組。
本周,《科學》雜志同時上線的6篇論文中,一個名為“端粒到端粒”聯盟(T2T)的國際科研團隊宣布完成了最新的人類參考基因組(被命名為T2T-CHM13),包括所有22條常染色體和X染色體的無縫組裝。其序列包含30.55億對堿基,不僅在過去的基礎上增加了近 2億堿基的遺傳信息——相當于一條人類染色體包含的信息,還糾正了過往基因組序列上的許多錯誤,并解鎖了人類基因組中結構最為復雜的一些區域。
填補最后8%的空白
由于當時的測序技術所限,第一版人類基因組測序草圖中留有許多空白。2013年完成的新版本并經過2019年的更新后,人類基因組測序結果中仍有數百萬個堿基由字母“N”表示,代表著該位置的實際堿基未知。更重要的是,占人類基因組大約8%的生物學重要區域處于未探明的狀態。
為了填補最后的空白,來自幾十個研究機構的近100名科學家組成了大型團隊“T2T聯盟”,也就是對每條染色體從一端的端粒到另一端的端粒進行測序。隨著此次研究成果的集中發表,用團隊領導人之一、華盛頓大學Evan Eichler教授的話說,我們在生命天書中“讀到了以前從未讀過的章節”。
▲相比先前的人類參考基因組(GRCh38),此次的新版本T2T-CHM13填補了所有原先的空白,在過去未解決的基因組區域內,每個樣本中發現了數十萬個變異,為理解進化和生物醫學新發現提供機會(圖片來源:參考資料[2])
讀取基因組時,科學家首先將所有DNA切成數百到數千個字母長的片段,由測序機器讀取每個片段中的字母,然后科學家們試圖以正確的順序組裝片段,就像玩一個超級復雜的拼圖。
這個過程中的一大挑戰是,基因組中的某些區域由大段重復字母組成,就像拼圖中有些板塊由看起來一樣的碎片組成,而這些區域往往具有重要的生物學特征,某些情況下還與人類疾病有關。另一個難點是,絕大多數細胞內包含兩套基因組,分別來自父親和母親。當研究人員試圖組裝DNA片段時,兩套基因組的序列混合在一起,就掩蓋了兩者本身具有的差異。
研究團隊找到了一種只含單個基因組的細胞系來消除上述等位基因多樣性的問題。這種特殊的細胞系來自所謂的葡萄胎,是一種異常胚胎,受精后僅保留一個親本的基因組副本。
攻克難關的關鍵進展還離不開測序技術的重大飛躍。基于具有革命性突破的長讀長測序技術,研究者可以解碼更長的序列,甚至一次準確讀取多達百萬級的堿基對也不成問題。
解鎖最復雜的區域
此次解鎖的新序列大約90%來自染色體的著絲粒。在形成精子或卵子的減數分裂過程中,著絲粒是成對染色體分離時附著的地方。這個區域結構獨特,包含長段重復序列,而且DNA和蛋白質似乎在這一區域纏繞得格外緊湊。
在T2T提供完整序列后,人類第一次有機會對著絲粒及其周圍序列的作用一探究竟。
根據他們的分析,著絲粒以及附近區域有各種序列堆疊現象,通常是一段新序列覆蓋在舊序列上。這一過程可以保證著絲粒與關鍵的動粒結構緊緊結合。動粒是著絲粒兩側的特化結構,參與染色體的移動過程。
▲著絲粒是一個包含高度重復 DNA 序列的區域,比較這些序列揭示了突變在數百萬年中積累的位置,反映了每個重復序列的相對年齡(圖片來源:參考資料[4];Credit:Nicolas Altemose, UC Berkeley)
舊序列會存在一些隨機突變和缺失,說明這一段區域已經被棄用;新序列中突變和甲基化都更少,說明正在被使用。而著絲粒中含有大量重復長度的DNA序列,大約為171個堿基,這些重復單元會共同形成更大的重復結構并串聯多次,構成了著絲粒中的重復序列區域。
著絲粒的重復序列在不同人之間同樣會存在差異。其中一篇論文比較了全世界1600人的著絲粒序列后發現,非洲大陸以外的人,著絲粒(尤其是X染色體上的著絲粒)傾向于分成兩大簇,還有一些有意思的突變會出現在有非洲人血統的人身上。未來,科學家或許能通過解析著絲粒序列來追溯人類的譜系,對人類的演化史探索有重要意義。
最后得到完整測序的區域
在此次發表的一系列成果中,研究人員著重分析了基因組中的重復片段在人類演化、遺傳多樣性的形成以及疾病中的重要作用。
重復片段(segmental duplication)是基因組中反復出現的、序列相似性超過90%以上的大段序列。無論是物種內還是物種之間的演化過程中,大多數的遺傳變異都出現在重復片段區域,這里是產生新基因和新基因功能發生適應性變化的關鍵。但由于結構的復雜性,這里也是人類基因組中最后得到完整測序的區域。
現在,基于最新的完整人類基因組測序結果,科學家終于能夠以更綜合的視角審視人類的重復片段。在這類區域,科學家找到了182個全新的蛋白質編碼基因,并且幫助我們理解一系列重要的演化與醫學難題。
例如,比較人類與其他靈長類動物的測序結果,研究發現了與人類前額葉皮層擴張相關的基因TBC1D3,這將有助于重現古人類演化的歷史。而在不同人類個體間,在重復片段區域編碼脂蛋白的LPA基因,其數量與心血管疾病風險高度相關……
基于這項研究,我們能夠全面理解重復片段的組織、表達與調控,并提升基因注釋與基因分型。
在另一項研究中,康涅狄格大學Rachel O‘Neill教授領導的團隊揭示了重復序列的轉錄與表觀遺傳狀態。重復序列包含移動遺傳元件,它們可以移動至基因組的其他區域。研究指出,一些多次重復的片段所包含的基因,能在很大程度上解釋人類的遺傳多樣性。
除了從基因組的角度揭示特定重復序列對人類的影響,這項研究還從局部(例如著絲粒中)分析了重復序列的轉錄圖景、描繪了甲基化的情形。這些結果將幫助我們理解轉錄在基因組穩定性以及染色體分離機制中的作用。
O‘Neill教授表示,接下來他們計劃對更多不同人群進行基因組測序,從而更全面地理解人類多樣性、疾病機制,以及我們與其他靈長類近親的關系。
新的起點
“生成真正完整的人類基因組序列代表了一項令人難以置信的科學成就,為我們的DNA藍圖提供了第一份全面視圖,”美國國家基因組研究所主任Eric Green博士評論說。
《科學》雜志的專題則這樣總結:最新的人類參考基因組代表著“重要的一步,表明可以組裝代表所有人類的模型,這將更好地支持個體化醫療、人口基因組分析和基因組編輯。”
參考資料:
[1] Sergey Nurk et al。, (2022) The complete sequence of a human genome。 Science。 Doi: 10.1126/science.abj6987
[2] Sergey Aganezov et al。, (2022) A complete reference genome improves analysis of human genetic variation。 Science DOI: 10.1126/science.abl3533
[3] Mitchell R。 Vollger et al。, (2022) Segmental duplications and their variation in a complete human genome。 Science https://doi.org/10.1126/science.abj6965
[4] Complete genomic and epigenetic maps of human centromeres。 Science(2022), DOI: 0.1126/science.abl4178
[5] A。 Gershman et al。, Epigenetic patterns in a complete human genome。 Science 376, eabj5089 (2022)。 DOI: 10.1126/science.abj5089
[6] S。 J。 Hoyt et al。, (2022) From telomere to telomere: The transcriptional and epigenetic state of human repeat elements Science DOI: 10.1126/science.abk3112
[7] Complete human genome deciphered for the first time。 Retrieved Apr。 1, from https://www.eurekalert.org/news-releases/946948
本文來自藥明康德內容微信團隊
“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)