編輯台引言:現代科技發展已經超乎人類想像,科學家也寫程式讓機器自我學習、獲得特定能力,比如說分辨物體。機器的視覺如何分辨物體?不同領域科學家有不同關注角度,本篇研究是認知心理學研究團隊的實驗,我們邀請到生物產業機電工程學系的老師,以及心理學界關注視覺科學,臉孔與物體辨識的專家,以不同角度看待這項技術發展。這份研究是研究團隊以視覺系統出發,挑戰機器所獲取的能力到底與人類有多相似。他們認為這兩者雖表面上看來類似,底下卻是仰賴非常不同的機制,我們的專家怎麼看呢?

人工視覺系統和生物視覺間的重要分歧

加州大學洛杉磯分校認知心理學研究團隊對機器視覺(machine vision)設計了一系列有趣實驗,釐清機器如何辨認出眼前的物體。近年來,深度學習系統(特別是深度卷積神經網路,Deep convolutional networks,簡稱DCNNs)辨認物體的表現,已經接近人類的水準,有研究表明,這些系統的處理過程可以類比或解釋生物視覺中的物體識別能力。[1] 本研究提及,在生物視覺中,形狀可說是辨認時最重要的線索。因此該研究設計了5個實驗,測試形狀資訊在訓練DCNNs辨認圖像時發揮了哪些作用。這些實驗結果提供了一些證據,說明DCNNs的分類跟人類識別物體時主要依賴形狀資訊的狀況相比,形狀以外的其他線索(如表面紋理)發揮了更大的作用。最重要的是,此研究證實了深度學習系統雖然可以讀取局部形狀特徵,但它們對這些邊緣特徵的排列或整體形狀其實不敏感,似乎無法區分物體的邊界輪廓與其他邊緣資訊,而這些發現也顯示出人工視覺系統和生物視覺之間的重要分歧。

研究原文:

<深度卷積神經網路無法根據整體形狀分類物體>
Nicholas Baker, Hongjing Lu, Gennady Erlikhman, Philip J. Kellman. “Deep convolutional networks do not classify based on global object shape,” PLOS Computational Biology, 2018; 14 (12): e1006613 DOI: 10.1371/journal.pcbi.1006613

專家怎麼說?

2019年6月21日
臺灣大學生物產業機電工程學系 郭彥甫副教授

機械自動化與智慧化的進程中,機器視覺是一項重要的技術,為我們提高了工作效率。舉例來說,在漁業的應用上,為了避免非法濫捕而拿到歐盟或國際組織的黃牌,漁業署必須妥善執行管理作業,所以過去我們要倚靠專業的遠洋漁業觀察員上船,執行各式魚種的紀錄工作,但如今有了魚種及魚身辨識等技術,人類就可訓練機器從照片或影片中學習各種魚類的特徵,用於辨識魚種,也可訓練機器快速認出魚頭、魚尾等特徵,進而估算出魚長。此技術不僅有助漁獲統計資料的輸出速度,也變相解決專業人員不足的缺口。
事實上,機器辨識的過程中涵蓋形狀、紋理或顏色等多項特徵,研究者的工作則是不斷調整機器學習辨識特徵的方法,用以提高精確率。然而,基於機器會一併接收到所有特徵後再展開學習,以至於我們很難明確斷定,機器最容易讀取的特徵究竟是形狀、紋理或是其他資訊。較可能的情況是,根據物體類別與其衍生出的特徵屬性不同,機器會優先以此物體類別中,差異最大的特徵線索來執行分類工作。比方說要分辨樹葉種類時,機器判斷葉片的形狀差異可能大於葉脈的紋理差異,便先從形狀開始辨識;但若要訓練機器認出眼前花瓣是哪種花時,顏色也可能變成重要的辨認基礎。有鑑於此,此篇研究中的DCNNs雖是提供辨識及預測的工具之一,但其分類更依賴於形狀以外的其他線索(如表面紋理)之實驗結果,可能不完全適用於所有機器視覺系統或研究類別

 

2019年6月30日
成功大學心理學系 龔俊嘉副教授

最近有愈來愈多比較深度學習網路模型與人類在視覺處理的文章,像本篇文章的結論:「其他線索(如表面紋理)發揮了更大的作用,而這些發現也顯示出人工視覺系統和生物視覺之間的重要分歧」時,個人的第一個反應是:不意外。原因之一是「天擇演化 vs. 人工演化」的確在時間軸上便如同是蘋果與橘子的不可共量:一方面,人類的視覺系統是經過數億年的演化後[2],從一些對光敏感的多細胞生物,逐漸演化到陸生爬蟲類採粗估形狀的視覺系統,哺乳類為了適應陸地的多變而對顏色或運動物體敏感,一直到某些鳥類(如天空的老鷹)對數哩外地面的微小移動具特常敏銳度[3],同樣的魚類也對天空的特定運動速度逐漸敏銳等等[4],都是透過相同的歷程,將先前物種的特性概括承受,再經過汰弱留強後,與環境變動的天擇交織而成的產物。於是一方面,我們從視覺教科書的知識學到的大腦功能分區概念,如各區的偏好(像是 1981年諾貝爾生理學獎得主 Hubel & Wiesel 的初級視覺皮層(V1) 之方向性偏好;中級皮層(如V4) 對顏色、中顳區(MT/V5) 對運動,直到顳葉底層對各樣的物件類別(如臉孔、物體、房子、生物/非生物、直線/曲線特性)的分區或錯置排列等,都是神經心理學與神經科學家累積大量實驗或腦傷病人資料後,得到的寶貴知識。

在人工演化的深度學習網路,藉由多層(多數位於數十至數百)的疊加,輔以向後傳導 (back-propagation)、側向抑制(lateral inhibition),或不同部位、不同大小的局部接受閾(various size of receptive field)概念,也可以得到相當於人類,甚或超越人類的表現。但在兩者的規模設計上,一個(人類)是透過了數億年的微觀變化調整,累積成的目前樣態,可算是「雖不完美,但運作的還算良好」,另一方面,人工演化的條件,可藉由各樣參數的調整(如學習層數的多寡、各層的向下傳導率、代謝率,與各層的有限視野等),逼近或超越人類的表現,但卻不易有類似生物演化般多代疊加,逐漸汰弱逐強的設計放入(雖有如此的機器學習網路,但此種設計之複雜與各代的取捨,本身亦是一個複雜的議題)。像本篇的結論,可以想像是在特定條件(如充足的學習層、足夠的工作記憶、保留相當的殘留訊息供下次學習用等等)下的表現。對於「表面紋理」的勝出,在如此的條件下,似乎也「不足為奇」。意即,如果上述條件的缺損或稀少,也有可能導致最後「表面紋理」(surface texture)無法在上述情況下得到最好的預測力,從而不得不讓其他條件(如線條的方向性)領先,也應是可以預期的

至於這樣的研究結果,對偏工程取向的視覺科學家,應該仍是有相當的學習心得:可以藉由調整更多細部參數,得到更有效率的,可協助人類或特定目的的各樣視覺辨識作業。而對於理論取向的視覺科學家呢?則更是增強了他們對於相形之下,較為傳統的神經科學研究的重要性:瞭解人類或動物,實驗取向的研究仍是不可或缺的重要啊!

參考資料:

[1] Dubey R, Peterson J, Khosla A, Yang MH, Ghanem B. “What Makes an Object Memorable?” Paper presented at the Proceedings of the IEEE International Conference on Computer Vision 2015, Santiago, December 13-16.;Peterson, J. C., Abbott, J. T., Griffiths, T. L. (2016). Adapting Deep Network Features to Capture Psychological Representations. arXiv preprint arXiv:1608.02164.
[2] Shubin, Neil (2008). Your Inner Fish: A Journey into the 3.5-Billion-Year History of the Human Body. New York: Vintage. 請參考影片介紹
[3] Ione, A. (2003). A Scientist’s Vision of Art: A Review of Margaret Livingstone’s Vision and Art: The Biology of Seeing. Assn for the Scientific Study of Consciousness. California: Berkeley.
[4] 魚的眼睛依其生態要求,可以方便偵測特定形狀的食物,或是躲避特定上方的暗影。水面魚的眼睛也分上下兩半,上半部對空中的物體反應較敏感,下半部對水底生物反應敏感。

版權聲明

本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:

曾雨涵

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925