告白時光

關於部落格
ursmart
  • 132883

    累積人氣

  • 18

    今日人氣

    0

    訂閱人氣

無人車橫越沙漠–Computer Vision(電腦視覺)


stanley-robot你可曾想過,無人駕駛、無人遙控的一台無人休旅車可以自己橫越132 miles (相當於220公里) 的沙漠,從頭到尾以電腦系統自動控制不偏離道路,最後順利抵達終點?其實這項壯舉,早在兩年前就已經有人達成了。也意味著原本在霹靂遊俠李麥克才可以看到的智慧型汽車,不再是遙不可及的夢想。由史丹佛大學的年輕教授Sebastian Thrun領軍的電腦視覺團隊,在2005年的十月參加由美國國防部舉辦的DARPA (Defense Advanced Research Projects Agency) 挑戰計畫 (DARPA Grand Challenge),順利讓無人駕駛車Stanley (見左圖) 橫越沙漠,抱走兩百萬美金的賞金。這項挑戰計畫是由美國國防部的DARPA機構提出,該機構旨在促進美國國防部科技及工程上的研究發展,這次舉辦的無人車自動駕駛挑戰,也是在為美國國防部尋找千里馬的一個計畫。

 

這個挑戰的賞金兩百萬美金,之前沒有人抱得走,為什麼呢?因為之前2004年的競賽,所有的無人自動車在比賽開始沒多久,通通開離道路,甚至於有的車子起火! (史丹佛大學沒有參加2004年的比賽) 所以2005年的成功,著實代表著電腦科技和人工智慧的一個新里程碑,同時也代表著美國國防部距離研發出真正的無人兵器又更近一步了,想起來相當可怕。以後美國攻打人家就靠這些無人載具,把傷亡減到最低。

這項挑戰背後的關鍵研究領域,就是今天要來淺談的電腦視覺 (Computer Vision) ,電腦視覺是相當新穎的一個研究領域,目前是掛在Computer Science之下,但實際上電腦視覺是一個跨領域的研究學門,其中牽涉到的其他研究領域從下圖可以有個概念 (from wikipedia) :
computer-vision
電腦視覺主要想要解決的問題是建造一個智慧型的系統,從影像中抽取出有用的資訊,當然我們可以簡單地說,電腦視覺的終極目的,就是要打造出像人類一樣可以對於影像做出智慧的反應和辨識的系統。最簡單的電腦視覺出發點就是對於靜態影像的分析,包括分析一個影像中的edge、line以及物件等等,然後進展到對於動態影像的分析,包括分析一連串連續拍攝的影像或是影片。靜態影像的分析本身已經是相當困難的一個問題,更遑論叫電腦自動分析一部影片的難度。人類能夠一瞬間掌握眼前影像、做出解釋的能力,即使是以現在最先進的人工智慧,也是遠遠不及。因為要模擬出人類視覺的能力,其中牽涉到的領域實在太多,看看上圖就可以發現,不僅僅是單純的人工智慧,包括物理學、機器人學神經生物學訊號處理等等都牽涉其中,其複雜度不言可喻。電腦視覺這個領域相當年輕,其研究發展歷史大致上可以如下粗分 (取材自Wikipedia):

  • 60年代電腦影像處理的概念萌生 (以2D為主)
  • 70年代的影像分割、線段偵測以及其他以物理為基礎的影像分析技術
  • 80年代開始的3D立體影像分析
  • 90年代的即時影像系統、物件辨識、運動偵測、appearance-based vision、multi-baseline stereo、content-based retrieval等等
  • 21世紀的互動視覺系統、即時的物體追蹤和辨識

電腦視覺較具代表性和經典的應用是face recognition (臉孔辨識) 以及OCR (Optical Character Recognition, 字元辨識) ,前者用在影像中辨識人臉的位置和特徵,後者則是自動辨識人類手寫出來的字。要作到自動的字元辨識,其實簡單的統計學習 (Statistical Learning (PDF),目前在computer science之中通常被當作是Machine Learning的一個大分支,與Computational Learning Theory領域息息相關,但正統上是屬於應用統計學的子領域) 技巧就可以做得不錯,詳情可見統計學習的經典之作The Elements of Statistical Learning。實際上,美國的郵局早在1965年就開始使用字元辨識系統,來幫助郵局自動分類郵件。這兩個應用目前還是有相當多的學者投入研究。

而一些比較現代的應用包括了影像搜尋 (像是現在大家常用的Google Image SearchBaidu Image Search等等) 、機器人 (像是NASA的火星自動探測機器人Sony的Aibo狗等等) 、3D場景重建 (廣義來說包含在三維影像分析之中) 以及最為貼近大家生活的Smart Camera等等。其中較為活潑的就以機器人的應用為主了,底下是一部機器人自動踢足球比賽的有趣短片,一堆小機器人在迷你足球場上拼命追著球跑,相當有意思。另外相信大家對於Sony的愛寶狗也一定不陌生,這些都是電腦視覺應用的成果之一 (當然也是機器人學、物理學的應用) 。更為完整的應用清單可以參見這裡

Robot Soccer機器人足球大賽(RoboCup GermanOpen 2007 NUbots vs GermanTeam 1st Half)

另外還有一些有趣的應用,像是下面的第一部影片介紹了使用電腦視覺來解Rubik’s Cube,首先使用者讓電腦用攝影機讀進Cube每一面的顏色,然後軟體架構出整個Cube的全貌,之後再用Speedcubing Algorithm (Rubik’s Cube的fans對於這個演算法相信不會太陌生) 來解決這個Cube。第二部影片則是讓電腦視覺去協助使用者達成憑空畫畫的能力,在這個應用中,電腦同樣用鏡頭來追蹤使用者的手勢,並且軟體預先已經設計好,什麼樣的手勢代表使用者是要畫直線還是畫圈,以及什麼樣的位置代表著使用者要去使用選單的功能。這個整合電腦視覺的繪圖軟體就根據你的手勢,幫你把圖畫好。第三部影片則是用電腦視覺設計出一個簡單的小遊戲,讓電腦追蹤人的位置來模擬綠色長方形在遊戲中的移動。看到第三部的影片,也許我們可以從中窺見下一代遊戲機的進展,就是進步到遊戲機能夠完整地追蹤整個人的移動和其他人體的特徵,進而讓玩電玩的人更能身歷其境。而不單單只是像現在的Wii一樣只是追蹤搖桿的移動。之前已經有看到過PS3一款滑雪遊戲可以透過攝影鏡頭捕捉玩家的左右移動,模擬在遊戲中滑雪者的動作,相信以後類似的電腦視覺功能會發展地更為健全。也許下一代的遊戲機都要內建一個攝影鏡頭了。

最近DARPA又即將帶給我們另外一個精采的比賽,這一次他們不要自動車去橫越沙漠了,而是要這些自動車在市區裡面自動行駛60 miles (約96公里) !這無疑又是一個更為艱難的挑戰,市區的影像複雜度,顯然比沙漠單調的影像複雜不知幾倍,分析上也一定更為困難。更有甚者,這些車子還必須遵守市區的交通規則,包括紅燈停、綠燈行以及其他我們平常開車就必須注意的號誌規定。DARPA要在今年八月份中旬才會公佈舉辦的場地和路線,正式的比賽則將於今年的11月3日登場,相信這場市區的無人車賽車,絕對精彩可期。

電腦視覺這個跨領域的學門,才剛剛開始蓬勃發展,目前市面上介紹Computer Vision的教科書也相當有限,顯見這個研究領域尚未成熟,另外也由於跨領域的關係,眾多學派的研究重心也不盡相同。這篇文章避開技術細節,簡單地以應用為出發點來介紹這個新興的研究領域,希望可以讓大家一窺電腦視覺的堂奧。

延伸閱讀及相關資料:

一些關於Computer Vision的好書

  • Computer Vision by Linda G. Shapiro, George C. Stockman, George Stockman, Linda G Shapiro
  • Machine Vision : Theory, Algorithms, Practicalities by E. R. Davies
  • Introductory Techniques for 3-D Computer Vision by Trucco, Alessandro Verri
  • Handbook of Mathematical Models in Computer Vision by Nikos Paragios, Yunmei Chen, Olivier Faugeras

Sebastian教授在Google關於DARPA Grand Challenge的演講

Stanford Racing Team及自動車Stanley

相簿設定
標籤設定
相簿狀態