12月13日,計算機視覺方向的三大頂級會議之一ICCV(國際計算機視覺大會)就要在智利圣地亞哥拉開帷幕了。
對業(yè)內人士來說,這是盛會。當然,非專業(yè)人士大概會問:這和我有什么關系?
其實,逐漸從學術界走向工業(yè)界的計算機視覺,已經(jīng)在人們生活中存在很長時間了。
日前,科技日報采訪了計算機視覺底層技術領域專家戴宇榮教授。他此前在韓國科學技術院獲得終身教職,曾多次擔任ICCV領域主席。如今,戴宇榮離開學術界,加入專注計算機視覺的創(chuàng)業(yè)公司“商湯科技”。
難點:在一堆數(shù)字里找出一個人
戴宇榮教授一直在做的,就是教計算機學會怎么看?!坝嬎銠C看到的,永遠只有0和1的數(shù)字。即使是圖像,在它們看來,照樣是0和1。”他向記者解釋,要理解研究者在計算機視覺上遇到的麻煩,就要先了解計算機處理訊息的方法。
想象一下,你現(xiàn)在面對一堆看似毫無規(guī)律可循的數(shù)字,然后你接到了任務——數(shù)字中間藏著一個人,來,把他找出來。這就是計算機要干的事情,它得在數(shù)字里找到規(guī)律,發(fā)現(xiàn)這個藏在數(shù)字當中的人,或者一只貓、一朵花。哦,對了,你還得先告訴計算機,長成這樣的是人,長成那樣的是貓,有著花瓣的這株植物叫“花”,也是夠費勁了。
在日常生活的真實場景中,這堆數(shù)字經(jīng)常有缺陷:比如有待識別的物體被遮住了,光照條件不同了,拍攝角度變了……所有這些,都能改變數(shù)字的規(guī)律。
美圖秀秀、人臉識別,都是計算機視覺
那么,計算機的底層和高層視覺技術,又是什么呢?
底層視覺,可以幫計算機進行邊緣提取,進行區(qū)塊分隔,讓它看清圖像。其實,只要你曾用過Photoshop或者美圖秀秀,那么你已經(jīng)感受過計算機底層視覺技術的魅力了——這些應用都采用了圖像增強和圖像處理技術。
而且,如果計算機遇到了不那么清晰的畫面,底層視覺技術就會對它進行預處理,豐富細節(jié),提高清晰度;然后高層視覺技術就能對畫面進行更充分的特點提取,把圖像上的物體“認出來”。
至于高層視覺技術,目前最為人所知的應用,當屬人臉識別。
隨著人工智能、并行處理和神經(jīng)元網(wǎng)絡等學科的發(fā)展,人臉識別也從實驗室走向了工業(yè)界。2015年,人臉識別的熱度一路高歌猛進:年初,馬云展示了一次“刷臉”支付技術;年末,人臉識別攪動娛樂圈,趙薇老公因司機騙過人臉識別“被賣房”……
不過,很多業(yè)內人士仍有疑問:計算機視覺在許多應用領域還是只充當輔助角色——有它挺好,沒它也無妨。而且,識別的穩(wěn)定性仍有待提升。
戴宇榮覺得,這并不意味著計算機視覺應用的普及依然遙遠。“以計算機為例,上世紀八十年代之前,它笨重、巨大,使用復雜,處在一種不溫不火的狀態(tài)。然而,僅僅20年過去,計算機就成為家庭標配?!?/p>
到了大學教授去工業(yè)界發(fā)展的時候?
“深度學習技術將為計算機視覺帶來更大的突破。只要我們能夠找到合適的深度學習方法,計算機視覺在日常生活中的應用會更普及?!贝饔顦s對自己傾心研究的技術很樂觀。
但是,如何找到這個方法?一些人的選擇是,離開高校,到公司去?!爱斞芯砍晒搅吮容^成熟、可以在工業(yè)界產生應用的時候,便是大學教授到工業(yè)界發(fā)展的時候。”
戴宇榮覺得,現(xiàn)在到了這個時候。其實,許多計算機視覺領域的學界明星也已經(jīng)“縱身一躍”,加入工業(yè)界:紐約大學的Yann LeCun去了Facebook 的人工智能研究院并擔任院長;NEC 資深科學家余凱進入百度的深度學習研究院……
“公司的產品可以獲得大量數(shù)據(jù)以便訓練更好的深度學習模型;它更大的計算機集群還可以加速深度學習模型的訓練?!贝饔顦s強調,要將研究成果帶入工業(yè)界,需要多個部門通力合作,這不是簡單的申請專利或開放源代碼就能做到的。而且,公司的人才招聘著眼長遠,研究團隊彼此之間能夠長期合作。他認為,比起大學,一所科技類公司確實更能給科研人員提供資源和人才上的助力。
如今,計算機視覺技術已被廣泛應用到圖像搜索領域;它還可以在智能安防和智能家居上一展身手;再遠一些,計算機視覺將成為無人車和無人機的眼睛,助推無人貨運的普及……戴宇榮覺得,未來正在加速前來。
摘自 中國科技網(wǎng)