SMC 資料庫
議題背景
2020年07月26日,法國蒙彼利埃第三大學生態演化與功能研究中心團隊在《生態與演化方法學》期刊(Methods in Ecology and Evolution)發表〈以深度學習為基礎的小型鳥類個體辨識方法〉(Deep learning‐based methods for individual recognition in small birds)。
之前科學家多利用大型動物的特徵辨識不同的個體,以便進一步了解不同個體在動物群體中扮演的角色與行為模式。也曾以AI模型來識別靈長類、豬和大象,但這篇研究是首次應用在實驗室以外的小型動物上,以群織雀(Philetairus socius)、大山雀(Parus major)和斑胸草雀(Taeniopygia guttata)這三種鳥類為研究對象。
由於研究的鳥類群體中,大多數的鳥類已經植入可供辨識的晶片,可以區別不同的個體;而後研究人員大量蒐集每個個體的照片,用以訓練擅長辨識圖片差異的AI──卷積神經網路(Convolution Neural Network,CNN),並透過訓練產出模型,辨識不同鳥類個體的特徵。再重新使用不同背景下,所拍攝的個體照片,測試模型的辨識能力。研究發現AI辨識野生群織雀與大山雀的準確度超過90%,辨識飼養的斑胸草雀準確度超過87%。但研究亦指出,若要將AI訓練到與FaceBook一樣能直接辨識照片中人臉與身分的程度,如何大量蒐集野外鳥類個體照片將是一大挑戰。
相關資料
- Ferreira, A. C., Silva, L. R., Renna, F., Brandl, H. B., Renoult, J. P., Farine, D. R., Covas, R., and Doutrelant, C. (2020). “Deep learning‐based methods for individual recognition in small birds.” Methods in Ecology and Evolution.
- Barkham, P. (2020). “AI model developed to identify individual birds without tagging.” The Guardian.
專家怎麼說?
2020年8月20日
國立臺灣大學生物機電工程學系副教授 郭彥甫
運用AI辨識鳥類或不同生物個體,可以幫助我們瞭解環境或生態。AI的特點是可以擴大辨識的規模,把本來很耗人力的辨識工作,交付電腦完成,因此可以增加很多的辨識能量。由於成本有限,人類為了瞭解環境與生態,是以研究人員至野外實地統計動物數量的方式,但取得的照片或動物樣本數量有限。近年來國民的環境生態意識提高,國人可能會好奇生活環境周邊的鳥類有多少,有哪些種類,然而要統計的物種眾多,用人力調查的成本太高,人力也不足。有些研究因為收集的資料沒有達到統計所需的最低數量,可能無法進行,若有AI辨識的協助就變得可行了。
這篇〈Deep learning-based methods for individual recognition in small birds〉研究中的AI模型,是辨識鳥類個體,AI除了瞭解是哪種鳥類外,還要知道是哪隻鳥。公民科學可以知道某種鳥類出現的頻率,但人力有限,無法連續24小時的收集大量鳥類個體的資料。通常是利用生物的特徵(Biometrics)來辨識個體,人類雖然很會辨識人類個體,但辨識動物,譬如說老虎是哪一隻,就沒有那麼敏感。要讓人類辨識大量的野生動物個體,有一定的困難。因此公民科學和AI結合,有可能協助克服研究挑戰。
運用AI技術中的CNN演算法[註1]辨識物種,有別於傳統的機器學習,最大的特點在於不用科學家自訂生物特徵,而是讓電腦自行學習特徵。舉例來說,如果今天一隻鳥的特徵是背上羽毛的花紋,傳統的機器學習方式是由專業人員定義花紋,再訓練電腦學習辨識不同個體。然而人要描述花紋有困難,可能一般人都不知道花紋的描述方式。相對來說,用CNN演算法訓練模型,可以讓AI直接從鳥背上的花紋找到特徵。這樣的方式不但更精準,不偏差(unbias),且可以自動化,大量節省人力。
目前的AI技術辨識鳥類個體的限制在於,照片數量是否足夠,以及鳥類的生物特徵是否足夠讓AI辨識不同個體。以我們團隊正在投稿的研究為例,發現用CNN演算法辨識貓的個體時,如果貓的毛色是沒有花紋、全黑,或全白,即使照片數量足夠,因為個體上的特徵不夠鮮明,仍然會造成無法辨識或辨識錯誤的狀況。
2020年8月21日
行政院農業委員會特有生物研究保育中心助理研究員 吳世鴻
在鳥類族群和行為生態研究中,經常用到「繫放」這種技術,將鳥類安全捕捉後,附掛上可供辨識個體的標記物,再予野放,以利後續追蹤及研究個體。但這過程需要耗費大量的時間、人力和物力,使得累積的資料有限。若能透過AI自動化辨識、追蹤與記錄,將有助於突破這些研究上的瓶頸,協助科學家累積大量的資料。而資料量越大,研究分析的可信度也就越高,我們就越有機會瞭解我們所處的自然生態環境,甚而發掘出新的現象或問題。
由於卷積神經網路(後簡稱CNN)演算法擅長辨識影像[註1],生態學家們也積極的將這技術引入生態研究領域,用來辨識和計數野生動物,以瞭解他們的族群數量、趨勢和移動路徑等。但利用CNN演算法訓練AI自動辨識的先決要件,就是需要大量已由人類標註的訓練資料,而這需要耗費大量的資源。且辨識的難度越高,所需要的資料量也就越大。因此,如何獲取足夠量的訓練資料,成為研究人員首要面對的挑戰。這時,公民科學便扮演了重要角色,例如穆罕默德.諾魯札德(Mohammad Sadegh Norouzzadeh)等人[註2]與6萬8千位公民科學家協作,由公民科學家一一標記320萬張相片中的物種,建立訓練資料庫,來訓練AI辨識48種非洲動物。
訓練AI辨識不同物種,便需要如此大量的資料,訓練AI辨識同物種間的個體勢必更難,因為同物種在外觀上更相似,所需的資料量也更大。就像認人會從臉開始,安德烈・費雷拉(André C. Ferreira)等人的研究[註3]也挑選了最容易觀察,個體間的特徵差異也較大的部位作為辨識標的,也就是這些小型雀鳥的背面。相對於從各個角度的照片辨識出個體,鎖定背面局部特徵,將有機會減少訓練所需的資料量。
接著則需要取得大量的已標記個體編號的背面照片作為訓練資料,安德烈・費雷拉等人針對野生的群織雀、大山雀及室內圈養的斑胸草雀,分別設計了自動化的照片蒐集流程。野生個體體內已植入有個體辨識用的PIT標籤(類似寵物晶片的縮小版),可透過無線射頻辨識(Radio Frequency Identification, RFID)感應器確認個體。研究將感應器裝設在野外的餵食台下方,當身上有標籤的鳥站上餵食台時,便會啟動相機從背面拍攝照片或影片,並自動標記個體的編號。而圈養的斑胸草雀,只需將單隻個體關在獨立籠舍,並設定相機定時從上方拍照即可。透過這兩個流程,團隊便能自動而大量的累積照片資料,並利用CNN演算法訓練AI產生自動辨識模型。
研究透過鎖定局部特徵及自動化取得大量資料,成功讓自動辨識模型對3種鳥的辨識準確性都可以達到85%以上,已深具應用的價值。但此模型也有限制,儘管對資料庫內的鳥類可以獲得很高的辨識準確度,但若給予一個外部的資料,也就是非資料庫中的鳥,辨識準確度便會降低。且外部資料的數量占比越高,準確度的下滑幅度也會越大。而在一個野生鳥類族群,防止非資料庫中的鳥進入研究範圍是不切實際的。為此,團隊建議,除了繼續累積資料以提高模型準確度外,也可以對同一隻鳥連續拍攝數張照片,綜合多張照片的辨識結果來提高準確度。
以CNN演算法訓練AI產生物種間或個體間的影像自動辨識模型,當前的瓶頸在於累積足夠的訓練資料。這篇研究提出自動化蒐集訓練資料的新方向,並鼓勵研究人員分享這些資料,以促進資料的累積及AI工具的開發。相信在不久的將來,會有越來越多成功的演算法被開發出來,或有更有效的方式訓練AI,協助研究人員蒐集資料來瞭解和釐清自然生態的各個樣貌。
相關利益聲明
研究範疇:鳥類族群及行為生態學、野生動物聲音自動辨識演算法
經費來源:林務局委託計畫、特有生物研究保育中心法定預算
註釋與參考資料:
[註1]關於卷積神經網路(CNN)技術的解釋歡迎參考〈深度學習卷積神經網路用於醫療診斷─專家QA〉
[註2]Norouzzadeh, M. S., Nguyen, A., Kosmala, M., Swanson, A., Packer, C., and Clune, J. (2017). “Automatically identifying wild animals in camera trap images with deep learning.” Proceedings of the National Academy of Science. 115(25):1-12
[註3]Ferreira, A. C., Silva, L. R., Renna, F., Brandl, H. B., Renoult, J. P., Farine, D. R., Covas, R., and Doutrelant, C. (2020). “Deep learning‐based methods for individual recognition in small birds .” Methods in Ecology and Evolution.
版權聲明
本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:
曾雨涵
02-3366-3366#55925