(康健基因 吳夢楚博士)
基因定序技術日新月異,從 1977 年第一代桑格定序 (Sanger sequencing) 誕生,讓科學家得以從基因的角度來探討演化、疾病與生化調控機制,開啟生醫領域的新境界,到了 2007年次世代定序 (next generation sequencing, NGS) 技術問世,能大幅降低定序所需的時間、錯誤率及成本,進而發展出全基因體定序 (WGS)、全外顯子定序 (WES) 等,成為疾病檢測與診斷應用上的一大助力。然而,單基因疾病 (mendelian disease) 若使用全外顯子定序,檢出率僅 25%,就算改用全基因體定序,也只能將檢出率提高至約 40% 至 50%,因此,定序技術要能在醫療檢驗上有更多應用,仍有許多努力的空間。
甫於 2017 年成功上市的奈米孔定序技術 (Nanopore Sequencing), 成為定序技術演進上的重要里程碑。奈米孔定序法, 可針對單分子進行定序, 能讓定序更快更即時, 突破過往定序技術上的諸多限制,未來應用相當值得期待。然而,基因定序技術如此多元,他們的差異在哪裡呢 ? 本文摘錄康健基因在 Nanopore Challenge 會議中對於該技術的介紹,讓讀者更深入了解這項技術的優勢、挑戰與應用。
後基因體時代,Nanopore 突破短序列片段 (short reads) 的侷限性
隨著美國前總統歐巴馬提出「精準醫療 (precision medicine)」的概念,2015 年更是基因定序技術蓬勃發展的時期。以應用廣泛的次世代定序來說,是藉由讀取短序列片段 (short reads) 的方式來定序,如今已累積了大量資料,卻也突顯出其限制,比如:重複區域 (repeat region) 定序表現不佳、序列放大造成的偏誤、在辨識結構變異 (structure variation),如基因倒置 (inversion)、重複(duplication) 或易位 (translocation) 等方面也尚有許多挑戰待克服。而奈米孔定序法因定序原理的不同,克服了許多次世代定序原有的限制。該技術的原理是讓 DNA 或 RNA 通過穿膜蛋白(transmembrane protein)中的奈米孔洞,藉由紀錄不同鹼基通過奈米孔時造成的電流擾動訊號,回推出鹼基,進而定出序列。此方法可以直接讀取原序列片段,不需經過序列放大,因此也可避免放大造成的偏誤。其實早在 1996 年時,美國加州大學的 David Deamer 教授就已開始研發相關的奈米孔技術,但面臨許多挑戰與困難,例如訊號要如何讀取、兩個奈米孔間如何能不互相干擾、 奈米孔的材料選擇、如何維持 DNA 通過奈米孔時的速率均衡及如何解讀大量的複雜訊號等等。隨後, 由牛津大學 Hagan Bayley 教授於2005年創立Oxford Nanopore Technologies (以下簡稱Nanopore)公司,將奈米孔定序技術推向商業化,克服多種關鍵技術的挑戰,包括利用人工智慧 (AI) 來解讀感測訊號等,得以大幅提升定序通量,降低錯誤率,讓奈米孔定序獲得更多應用。
Nanopore 不需DNA合成,定序時間快,且可定序 RNA
奈米孔定序與其他定序技術最主要的差異在於不需合成 (sequencing by synthesis)。目前大多數的定序技術都是一邊進行合成一邊解讀鹼基。但奈米孔定序技術則是藉由鹼基序列通過奈米孔時,造成的連續電流變化來解讀序列,不需經過序列放大的步驟,因此定序速率更快,Nanopore 定序平台定序一個鹼基僅需 0.002 秒,遠快於 illumina 定序平台的 2-20 秒;此外,可用於 RNA 定序更是其獨門特色。而 Nanopore 一個流通池 (flow cell) 上有 2000 多個奈米孔洞,每 4 個孔洞對應到一個積體電路(integrated circuit, IC),總共有 512 個 IC。但須留意,蛋白質會逐漸阻塞孔洞,當孔洞被阻塞後該流通池就失去作用,可能會導致定序結果差異。根據之前的資料,一個流通池約可使用 48 小時, 依不同樣品, 定序出 2-20G 的資料。
Nanopore 長序列讀取優勢 ─ 更接近完整基因組圖譜
奈米孔定序的另一特色為長序列片段 (long reads) 讀取,其可讀取的序列片段平均高達6-8 kb,遠高於其他短序列片段讀取平台的 600 bp。長序列片段讀取技術有下列優勢 :
1. 更容易找出結構變異:比如有些細菌具有特殊的基因體變異,使用短序列片段定序只能看到碎成很多小片段的結果,但若是用 Nanopore 的長序列片段讀取技術,則較容易看到這些特殊的結構變異。
2. 直接判斷位置:短序列片段定序技術組成的基因都是 100 多 bp,研究者不易判斷該基因是位在質體 (plasmid) 或染色體 (chromosome) 上,若用 Nanopore 定序則可以直接判斷位置,對後續的分析是一大利多。
3. 更容易確認拷貝數 (copy number)的數量:許多基因有不同的拷貝數,使用短序列片段定序時常要猜測有幾個拷貝數,若使用 Nanopore 技術定序,則可看到較完整基因體(genome),也更容易確認拷貝數量。
4. 其他:Nanopore 定序特色還包括不需經 PCR 步驟就能完成建庫 (PCR amplification free),進而避免因引子與模板配對錯誤或放大不均造成的偏誤 (bias),甚至未來有可能完全排除建庫的步驟。
不過,該技術也並非完美無缺,其從電流訊號回推鹼基的準確率約 85%,仍有改進空間,但若透過overlap consensus / error correction 等步驟 (例如一條序列讀兩次),就能把準確率提高到 95-97%。整體來說,短序列片段讀取的準確度較高,然長序列片段讀取則比較接近完整的基因體,兩者各有優缺點,互相配合使用可讓定序結果更加完整且準確。
Nanopore 資訊分析工具多元化,隨時隨地即時分析
除了定序平台外,定序後的生物資訊分析也是重要的一環,選對分析方法才能將定序結果發會最大價值。康健基因是台灣第一個拿到Oxford Nanopore Technologies 原廠官方認證的服務供應商,提供包含第三代定序實驗到後端生物資訊分析等上中下游完整服務,幫助將定序平台應用於科學及臨床研究。Nanopore 的資料處理包含很多層面, 有多種工具可選擇,例如 basecalling 有Albacore、Scrappie、Guppy 等工具; Reads Cleaning 可考慮 Porechop、NanoFilt 等;Alignment 有NGMLR、GraphMap、marginAlign 可選擇;De novo assembly則有 Canu、Miniasm、MECAT 等;Consensus & polosh 則可考慮 Pilon、Racon 或 Nanopolish,研究者可視情況選擇不同的處理工具。若需進行即時分析 (real-time analysis),也有數種工具可選擇:比如 MinKNOW + EPI2ME,其優點是有圖像介面,並可透過網路上傳到 EPI2ME。目前, Nanopore 數據分析本身就是一個研究的熱點, 幾乎每個月甚至每周都有新的工具發表.
但是, 不論是實時的定序還是分析, Nanopore 定序的資料量都非常龐大, 數據處理和運算對網路和計算硬體的性能要求都相當高, 這往往也是使用者最容易忽略的地方. 建議在設計應用Nanopore 技術的實驗及研究時, 不僅要考慮定序設備和試劑成本, 數據處理的硬體設備成本也要仔細評估。
Nanopore 的定序技術突破過往短序列片段讀取的限制,且能定序 RNA 片段,搭配人工智能解讀訊號技術,能夠更快地即時分析資訊,未來將可望帶來更多臨床應用。加上其新推出定序儀 MiniON,儀器體積輕巧便於攜帶,實現「隨身/隨時定序」的概念,可預見 Nanopore在未來的定序領域終將佔有重要的一席之地。
https://geneonline.news/index.php/2019/02/21/breakthrough-of-third-generation-sequencing/?doing_wp_cron=1602299590.0414988994598388671875