原文發表於第 11 屆 iT 邦幫忙鐵人賽 (https://ithelp.ithome.com.tw/articles/10215861)

想寫點生物資訊的東西,為什麼要扯賽博格

生物資訊 (bioinformatics) 是利用應用數學、資訊學、統計學和電腦科學的方法研究生物問題的學門;賽博格 (Cyborg, cybernetic organism) 一詞則用以表示任何混合了有機體與電子機器的生物。

試驗農場旁有一棟與溫室共構的研究館,隸屬於生物資源暨農學院,陳舊卻又不失莊嚴。灰暗的長廊右邊數來第二間的討論間亮著燈,選修專題研究的小朋友第一次來到實驗室與指導教授面談,指導教授說:「我幫你挑了個植物基因,你去做點序列分析的生物資訊專題吧!」,這就是天真的孩子被選中成為『賽博格(adj.) 研究生(n.)』的發光瞬間。

『賽博格研究生』不研究賽博格,而是必須是像個賽博格一樣的專題研究生。對於農學院或是廣義生物科學背景的學生來說,生物資訊學若並非必修,除非自己探索,否則這樣的發展可能不在預期之中,自行摸索起來也會特別辛苦。我當初就是那個小朋友,讀碩士期間又帶了幾個這樣的專題生小朋友。研究期間除了準備材料時需要在生長箱前搬弄土壤介質與小苗,大部分時間都將在電腦工作站前搞懂各種軟體工具的安裝和運作方式,彷彿要與那台電腦合為一體成為賽博格。

巴特罵人 (截圖來自動畫攻殼機動隊)

選用『賽博格研究生』一詞或許有些誇張,畢竟這個年代的大學生在個人電腦的普及化中長大,國高中早就有資訊相關教育,大學課程中也需要自學運用各種電腦工具。社會上也是人人手拿智慧型手機,人人早已都是賽博格。但是在廣大的網路中,各種開放資料與開源軟體隨手可得,卻不見得人人都能駕輕就熟地存取及使用,大部分情況我們還是習慣依賴使用者介面/經驗更佳的工具。也就是說,對工具的掌握程度,間接地造成人群間不同程度的資訊落差。

事情就是這樣 (截圖來自動畫攻殼機動隊)

我雖然剛從園藝作物所畢業,並不是什麼專門的生物資訊學者,我還是希望可以在這三十天的挑戰中,寫一份給生物背景出身同學的生物資訊入門小指南,降低任何可能的工具掌握之學習門檻,一起踏上生物資訊 の 冒險旅途。

(截圖來自動畫攻殼機動隊)

從工具操作者到網路編織者

生物資訊學者與賽博格主要的共通點,我會說兩者都是『熟練的數位工具操作者』。好的數位工具的根基是精美的源代碼,但是我認為要當一個好的賽博格,不見得需要成為一個寫程式忍者。生物資訊學者發表的數位工具及資料庫平台造成知識生產方式的加速及改變,搭配其他相關科技如次世代定序儀的普及,正在推動生醫及農業等應用領域中典範轉移發生。

生物資訊學的數位工具講求準又快的演算法,在開創端的學者發明新工具勢必要有點硬核的電腦科學知識和程式寫作技巧。在生醫及農業等應用端的我們,重點在於數位工具的正確活用,只要像賽博格一樣擅長操作工具,不用寫程式便勉強能夠跟上典範轉移。我會說有時候甚至要避免寫程式,才不至於見樹不見林,或是其實將打代碼 (coding) 的過程作為一種逃避深度思考的儀式。

工具操作者的共通點 (在工具操作者場景下的生物資訊學者及賽博格之文氏圖)

在碩士的畢業之路上,單純作為工具操作者獨善其身很簡單,用書目軟體 Endnote 作為延伸的記憶儲存空間,Word 檔案紀錄每次會議筆記跟實驗操作步驟,Powerpoint 排版做個讓觀眾似懂非懂的海報,用 R 或 Python 寫點腳本批次化地輸出圖表,寫出厚厚一本可能只有口試委員跟實驗接續者會看的論文之後,順利拿畢業證書,恭喜!

但是這樣就會很可惜,因為學術最重要的價值衡量標準之一便是影響力,除了發表國際期刊論文以外,還有很多方式可以更簡單地發揮影響力,不論是針對學術內容或是對所屬的學術工作場域之改善。善用具有網路性質的工具發揮影響力,也就是成為一名『網路編織者』。網路編織者之間的關係理想上是去中心化的,不該像學術場域之人際關係有著濃厚的師徒傳承、權力派系之性質,一切將以影響之內容為依據,所有受眾都有權利成為可以互相影響的評審。作為我個人邁向網路編織者的一種實踐,這份入門小指南中,除了簡單的生物資訊工具使用教學,還會包括我認為在學術之路上,很有助益的數位工具應用。

網絡編織者的共通點 (在網路編織者場景下的生物資訊學者及賽博格之文氏圖,這種交集便是我目前認為理想的當代生物資訊學者應有的特質)

打了一堆無聊的碎碎念,還是要來點開胃前菜

世界之大,當我還在這邊妄議要當一個喜歡生物資訊的網路編織者型態的奇行種賽博格的時候,2012 年早就有 McGill 的學者發表了非常有趣的東西:一個致力於優化多重序列比對的公民科學遊戲。直接點進去體驗在遊戲中學習又可以幫助學術的感覺吧!

Play Phylo, solve DNA puzzle and help genetic disease research

遊戲畫面,實際體驗序列比對的演算 (選擇想要貢獻的研究領域之後,就會進入這個操作區,拖曳不同顏色的珠珠人工找尋最佳序列比對方式)

沒有什麼技術含金量的第一篇不小心打了太多字,之後還要看什麼

接下來的29篇將會盡量著重在生物資訊指南上,雖然還沒有確切的規劃但還是來點白話的期許與免責聲明 (?)。

-目標讀者是生物背景出身,想要學習生物資訊,已經對分子生物學、定序技術有簡單地認識,但是總是難以跨出第一步自己開始安裝套件進行分析的人。

-小指南會包括簡單的、一目了然的、方便更改為己所用的腳本,以及各種工具的簡單安裝及使用過程,像是一份機器說明書而不是十全大補教科書。

-小指南不會包括統計檢定原理、演算法或機器學習細節,也不會有基礎生物學的名詞解釋。

-希望未來讀完這份小指南的人可以有勇氣輕鬆地重現一篇感興趣的文章、活用學術開放資料輔助研究方向探索。

參考資料與延伸閱讀

Amber Case: 安柏凱斯:我們都是賽博格(機器生化物)

賽伯格 - sociomurmur

Phylo: A Citizen Science Approach for Improving Multiple Sequence Alignment