基因測序作為醫療健康行業的火爆技術,近年來越來越得到臨床的認可,并逐步被應用到各大領域中。尤其是精準醫療概念提出以后,基因測序更是備受青睞,它為精準醫療解答了很多未知的問題。
如今,基因測序已經形成了一定的產業規模,大量的企業以不同形式躋身進來。但是,在表面飛速發展的背后,技術上仍有大量的挑戰。外媒《GEN》ShawnC.Baker博士撰文講解該領域面臨的困難與挑戰。編譯如下:
過去十年里,高通量測序技術經歷了跨越式的發展,測序能力大幅上升,費用下降,兩者的變化都是數量級的。到目前為止,全球范圍內,共配備測序設備超過一萬臺。
過去十幾年來,主要的平臺公司都致力于提升系統的易用性。Illumina的最新桌面系統,比如NextSeq、MiSeq、和MiniSeq系統,均通過試劑盒進行操作,以減少了手工操作的次數和開機時間。
一直以來,Illumina的系統都比賽默飛的IonTorrent系統更加易用,但后者最新的系統IonS5特別設計簡化了整個工作流程,涉及設計準備庫到數據生成的整個流程。
行業外讀者在聽聞了測序行業的許多進展后,如強大的測序能力、更低的成本以及更好的易用性,可能會誤認為,基因測序所有的困難已經都解決了,測序過程的所有障礙都移除了。
但是真正的困難還剛開始,大量的挑戰在前方。
樣品質量
問題最嚴重的一個領域,也是易被忽略的是:樣品質量,雖然測試平臺經常會校準,使用的樣本也是經過校準的,但是真實世界中的樣本經常會面臨很多意想不到的挑戰。
在人類基因測序中,一個最普遍使用的樣本類型是FFPE(formalin-fixedparaffin-embedded)。FFPE的廣泛應用有多種原因,其中最重要的是豐富性。據估計,全球范圍內,有超過100億FFPE樣本存檔。FFPE塊的臨床樣本存儲已經變成工業級別的標準實踐,其樣本數量將繼續保持增長。
除全球范圍的廣泛應用外,FFPE樣本通常包含著大量可用的表型信息。例如,FFPE樣本可與治療方法和臨床數據綜合應用。
但FFPE樣本出現的問題是:固定過程和存儲條件均會造成大量的DNA損傷。
BioCule公司CEO、聯合創始人HansG.Thormar博士認為,
“評估了BioCule的QC平臺超過1000份樣本后,我們看到了DNA樣品中大量的變異和各種類型的損傷,例如鏈間、鏈內交聯,單鏈DNA的聚合以及單鏈DNA破壞。”
“DNA損傷的變異數量和類型,如果忽略,可能會對最終結果產生負面影響。”
Thormar認為,這對下游應用比如測序的影響是巨大的:從簡單測序文庫構建的失敗到虛假文庫的產生,最終導致結果的錯誤。因此,在測序項目開始時正確評估每個樣本的質量變得至關重要。
測序文庫
盡管,各大測序平臺公司花大力氣在降低生成原始序列的成本上,但是在構建測序庫方面卻不然。人類基因測序的測序文庫的構建,每個樣本大約花費50美元,在總花銷中是相對較小的一部分。但是在其他應用中,例如細菌基因組測序或低深度RNA測序,它占據總成本很大一部分。
幾個小組研究了多元化自制解決方案,期望可以有效降低成本,但在商業領域并沒有太多發展。在開發單細胞測序解決方案中有一個亮點,例如10XGenomics公司的Chromium(TM)系統,利用基于珠的系統可以并行處理數百到數萬個樣品。
10XGenomics公司的CEO兼聯合創始人SergeSaxonov博士堅持道,
我們認為單細胞RNA測序是進行基因表達分析的正確方式,在接下來的幾年,全球許多地區,RNA試驗將轉向單細胞分辨率,我們的平臺有可能在這方面引領浪潮。
對于大型項目,比如在降低樣品成本方面,單細胞RNA測序中要求的高度多元解決方案將是關鍵的因素。
長讀數與短讀數
Illumina對于基因測序市場的主導,意味著到目前為止產生的絕大多數數據都基于短讀數(shortreads,高通量測序平臺產生的序列就稱為reads,這是測序讀到的堿基序列片段,測序的最小單位)。大量短讀數的產生對大多數的應用都很適用。例如檢測基因組DNA的單核苷酸多態性和計數RNA的轉錄物。然而,在許多其他的應用中,僅有短讀數是不夠的,例如閱讀基因組的高度重復區域和確定長鏈結構。
長讀數平臺,例如PacificBiosciences公司的RSII和Sequel,OxfordNanopore的MinION,通常能生成15-20kb范圍長度的讀數,最高曾報道過超過100kb長度的讀數。這樣的平臺贏得科學界的贊賞,例如加利福尼亞大學戴維斯分校細胞生物學教授CharlesGasser博士。
Gasser博士評論道,“我對于用長讀數方法進行基因組裝配的成功印象深刻,特別是與短讀數高保真數據相結合時的混合裝配中。技術的結合使得小群體、小預算的單個研究者從一個新的生物基因組中產生一個可用的組裝。”
為了充分利用這些長讀數平臺,有必要通過新方法進行制備DNA樣品,標準分子生物學方法尚未優化用來分離超長鏈DNA片段,所以,在制備長讀數庫時必須特別小心。
例如,供應商創建了一種高分子量試劑盒用于分離大于100kb的的DNA片段,優化靶向DNA方案來選擇性富集DNA的大片段,為了保證長讀數產量的最大化,這些方法和技術必須掌握。
短讀數的一種特殊形式是鏈接讀數,例如10XGenomics,可作為真正長讀數的一種替代方法。鏈接讀數是這樣產生的:每個長DNA片段,通常大于100kb,其中產生的每個短讀數,均加入一個獨一無二的條形碼,在分析階段,這種獨特的條形碼就可以將分離的短讀數鏈接在一起,從而提供長鏈基因信息,使得構建大單倍型塊和對復雜結構信息的闡釋成為可能。
Saxonov博士建議道,短讀數測序,因其高精確度和高通量,通常具有強大的功能,但只能獲取小部分的基因信息。這是因為基因組是基本重復的,基因組中的大量信息編碼在長鏈中。
數據分析
研究人員面臨的領一大挑戰是生成的數據量非常大。單個30X人全基因組樣品的BAM文件(半壓縮比對文件)約為90GB;一個相對中等的項目,包含100個樣本,其BAM文件可達到9TB。
一個IlluminaHiSeqX儀器,每年能產生超過130TB的數據,很快數據的存儲就變成一個大問題。例如,Broad研究所以每12分鐘分析一個30X人全基因組速率產生基因測序數據——每年可產生將近4000TB的BAM文件。
BAM文件可以轉化為VCF文件(變體調用格式),后者僅包含不同于標準序列的信息。雖然VCF文件小并且更加好用,但是保存原始序列文件仍是必要的,方便研究者將來查看這些數據。
隨著測序成本下降,一些人就得出這樣的結論:對樣本重測序會很容易,并且可能更便宜,而分析大量數據時,研究人員的選擇空間非常大。但事實上,在OMICtools中有超過3000個序列分析工具可供選擇,研究人員想要找到最好的那一個,也不容易。
臨床解釋和報銷
最后,對于臨床樣本,還有一個挑戰:對于測序序列的變異提供一致可靠的解釋。
一個典型的外顯子包含1萬——2萬個突變,全基因樣本則會產生超過300萬種變異。在通常的解釋中,根據變異造成的疾病相似性分類。
為了協助指導臨床醫生,美國醫學遺傳學和基因組學,分子病理學協會和美國病理學家學院創建了一套對突變進行分類的系統。分類目錄包括致病性,可能致病性,不確定的顯著性(目前占外源和全基因組樣本的絕大多數),可能良性和良性。
然而,這種方案有其局限性。即時使用一種公認的分類方案分類同一個數據庫,不同的項目組可能會提出不同的解釋。對新系統的一個試驗研究中,參與的不同臨床實驗室僅在34%的情況下,對于分類的解釋一致。
如果存在分歧或需要額外的分析來解釋實驗結果,那么就存在報銷的問題。基于NGS的測試的報銷可能是一個大障礙,但是對于解釋的報銷幾乎是不可能的。
Rady兒童基因組醫學研究所臨床研究員JenniferFriedman博士說,
實驗室不可能對試驗的解釋付費,如果這種服務可以提供,這是非常有價值的,但是沒有人做到這個。
沒有辦法為此付費,保險公司不報銷。盡管對于精準醫學的關注度上升,但是無論是臨床醫生或實驗室做出的解釋,都沒有被醫療保健支付者承認或是重視。
到目前為止,病人樣本的分析基本上是作為一個研究項目來對待的,是在研究型醫院中的一個選擇,并且僅用于有限數量的患者。
未來展望
了解道,盡管過去幾年有很大的進步,但是整個NGS工作流程,從樣品文庫構建到數據分析,仍然存在大量的挑戰。隨著基礎技術的進步,新的挑戰將繼續出現,對于這些基因組技術的廣泛應用和最大化改善人類健康而言,解決這些挑戰是至關重要的。