原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10220238)

神奇的轉錄體拼圖

透過 RNA-Seq 進行轉錄體分析,比起使用微陣列晶片 (microarray) 偵測起基因表現量/轉錄產物量 (transcript level),除了背景雜訊低以及動態範圍大的優點,最大的優勢還是在於不需要基因體序列。RNA-Seq 流程中次世代定序產出的讀序結果呈現的是轉錄體 cDNA 之碎片序列兩端之讀序,在沒有參考基因體的情況下,只要定序深度足夠,來自同一轉錄產物的讀序結果一定會有重疊片段,因此在強大演算法的作用之下,所有短序列就可以像拼拼圖一樣,靠著重疊的序列拼出整個轉錄體的原貌。這個拼拼圖的過程就是我們這篇中想要帶過的轉錄體新組裝軟體。

但是,一切都在但是之後

這個新組裝轉錄體的流程需要龐大的記憶體,如果是原核生物的話還有可能在一般的家用電腦、筆記型電腦上進行;針對真核之多倍體園藝作物的話,可能需要 128Gb 到 256 Gb 的記憶體。因此如果真的需要自己進行這個流程的話,想必也都是手上有寶器、胸中有決心去讀軟體英文文件的勇者了,這邊便不贅述安裝,僅簡單呈現指令概況。

單一指令就可以開始組裝,記得附上組裝檔案的清單檔案。小心 CPU 執行緒設到最滿的話電腦會真的進入全心全意運算沒有反應的狀態,直到約莫三天後組完為止。最大記憶體雖然可以把 SWAP 的部分算進去,但其內部有些階段還是只認真的記憶體大小,因此會回報錯誤訊息,但執行中斷的話不要緊張,把指令再送一次他會自動讀取已經存成檔案的部分,從上次失敗的地方執行下去,有一定機率會成功 (?)。Trinity 本身的文件其實寫得不錯,花點時間讀一定有收穫。

執行完畢後可以透過上述的 metrics 簡單地看一下該轉錄體的各項指標,當然也有其他更專業的評估工具,詳情請見延伸閱讀之文獻。

關於新組裝轉錄體軟體,印象中兩年前我剛入碩班的時候,還只能看各方軟體大亂鬥,連論壇上前輩的建議也都是先組再說,如果出錯了再回來重組,一切憑感覺挑選軟體。最近又再次查找文獻,發現多了不少針對組裝軟體的綜合評測,各種量化評比標準紛紛上線啦!其中陳倩瑜老師團隊發表於 Scientific Report 的文章標題凝鍊,內容精彩,與大家推薦!

如果有任何實際操作的問題歡迎在下方留言討論,下一回將是緊湊的轉錄體註解!

參考資料與延伸閱讀

De novo transcriptome assembly: A comprehensive cross-species comparison of short-read RNA-Seq assemblers

Comparison of De Novo Transcriptome Assemblers and k-mer Strategies Using the Killifish, Fundulus heteroclitus

Effect of de novo transcriptome assembly on transcript quantification

trinityrnaseq/trinityrnaseq

1071 BioDataMining 20180709 註:陳倩瑜老師在台大生機系開的「資料結構與演算法實務」也是我大學期間奠定程式撰寫基礎的課程之一,內容非常扎實又用心,本人修了兩次XD老師最近也有不少高質量的 youtube 影片產出,也向大家推薦!