RNA-Sick@Day10 > 我來組成頭部｜把短片段序列組裝成轉錄體 feat. Trinity | Chen (Benjamin) Hsieh

原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10220238)

神奇的轉錄體拼圖

透過 RNA-Seq 進行轉錄體分析，比起使用微陣列晶片 (microarray) 偵測起基因表現量/轉錄產物量 (transcript level)，除了背景雜訊低以及動態範圍大的優點，最大的優勢還是在於不需要基因體序列。RNA-Seq 流程中次世代定序產出的讀序結果呈現的是轉錄體 cDNA 之碎片序列兩端之讀序，在沒有參考基因體的情況下，只要定序深度足夠，來自同一轉錄產物的讀序結果一定會有重疊片段，因此在強大演算法的作用之下，所有短序列就可以像拼拼圖一樣，靠著重疊的序列拼出整個轉錄體的原貌。這個拼拼圖的過程就是我們這篇中想要帶過的轉錄體新組裝軟體。

但是，一切都在但是之後

這個新組裝轉錄體的流程需要龐大的記憶體，如果是原核生物的話還有可能在一般的家用電腦、筆記型電腦上進行；針對真核之多倍體園藝作物的話，可能需要 128Gb 到 256 Gb 的記憶體。因此如果真的需要自己進行這個流程的話，想必也都是手上有寶器、胸中有決心去讀軟體英文文件的勇者了，這邊便不贅述安裝，僅簡單呈現指令概況。

單一指令就可以開始組裝，記得附上組裝檔案的清單檔案。小心 CPU 執行緒設到最滿的話電腦會真的進入全心全意運算沒有反應的狀態，直到約莫三天後組完為止。最大記憶體雖然可以把 SWAP 的部分算進去，但其內部有些階段還是只認真的記憶體大小，因此會回報錯誤訊息，但執行中斷的話不要緊張，把指令再送一次他會自動讀取已經存成檔案的部分，從上次失敗的地方執行下去，有一定機率會成功 (?)。Trinity 本身的文件其實寫得不錯，花點時間讀一定有收穫。

執行完畢後可以透過上述的 metrics 簡單地看一下該轉錄體的各項指標，當然也有其他更專業的評估工具，詳情請見延伸閱讀之文獻。

關於新組裝轉錄體軟體，印象中兩年前我剛入碩班的時候，還只能看各方軟體大亂鬥，連論壇上前輩的建議也都是先組再說，如果出錯了再回來重組，一切憑感覺挑選軟體。最近又再次查找文獻，發現多了不少針對組裝軟體的綜合評測，各種量化評比標準紛紛上線啦！其中陳倩瑜老師團隊發表於 Scientific Report 的文章標題凝鍊，內容精彩，與大家推薦！

如果有任何實際操作的問題歡迎在下方留言討論，下一回將是緊湊的轉錄體註解！

參考資料與延伸閱讀

De novo transcriptome assembly: A comprehensive cross-species comparison of short-read RNA-Seq assemblers

Comparison of De Novo Transcriptome Assemblers and k-mer Strategies Using the Killifish, Fundulus heteroclitus

Effect of de novo transcriptome assembly on transcript quantification

trinityrnaseq/trinityrnaseq

1071 BioDataMining 20180709 註：陳倩瑜老師在台大生機系開的「資料結構與演算法實務」也是我大學期間奠定程式撰寫基礎的課程之一，內容非常扎實又用心，本人修了兩次ＸＤ老師最近也有不少高質量的 youtube 影片產出，也向大家推薦！

神奇的轉錄體拼圖#

但是，一切都在但是之後#

參考資料與延伸閱讀#

神奇的轉錄體拼圖

但是，一切都在但是之後

參考資料與延伸閱讀