視覺互聯網的黃金時代 – 《VR與超級電腦、雲計算、大數據與人工智能如何塑造互聯網世界》

瑞雲科技董事長梁幸堯先生 2016深圳文博會 VR 高峰論壇演講

(為對主旨與細節做更充分的闡述,突破現場時間對圖文材料的限制,本稿在演說逐字稿的基礎上做了增修,並經講者確認發表。)

大家先看一下視頻! (放了一段幕後特效視頻)

剛剛在前 5 秒就知道這一個視頻是由電腦做出來的,請舉手!

(兩三人舉手)

在場 99.5% 的人都沒有辦法辨別,這個眼睛到底是電腦做出來,或者來自一個真實存在的人。在很近的將來,透過互聯網傳播加上虛擬現實,人類對於真實的定義會有翻天覆地的變化。

所以,我今天和大家談視覺互聯網。

我從 1992 年開始接觸電腦圖形圖像,在二十幾年的從業生涯裡,我看到非常多創新,包括 VR。 1992 年 93 年有過一波 VR 科技狂潮。那個時候,每個月最期待的就是《CGW》,美國一個權威的雜誌《Computer Graphics World》。每個月就等那一本雜誌,看看有什麼新的東西,看完之後又萬分的沮喪,因為這個月的又看完了。那個時候沒有互聯網,只能再乾等一個月……。從那個時候到現在,我們看到視覺科技的進展,給整個世界帶來了非常多的樂趣。

這兩年 VR 又火了。我自然非常興奮。我對 VR 的憧憬,遠遠不只是在科技和商業方面,我很期待看到 VR 對人類生命、社會層面的影響。

我今天的題目是《視覺互聯網的黃金時代:VR 與超級電腦、雲計算、大數據與人工智能如何塑造互聯網世界》,看似很大雜燴,但我恰是要說說,為什麼這幾件事很有關係。

(剛剛刑總也提到的)VR 所代表的電腦圖形圖像的技術創新,給我們帶來的是新一代的計算平台。新一代計算平台裡面,我們就難免不去談到除了手邊可以接觸到的計算裝置(頭盔、手機、平板、電腦、可穿戴裝置等)之外的一些計算,以及雲計算。

先介紹一下,這幾年我在做什麼。我在做的是第三方的雲渲染服務。什麼叫渲染?

大家現在看到的是一部動畫的製作過程:電腦動畫工作室先把模型建好,場景建好,再把材質、顏色這些弄上去做一個草樣。最後成片之前,必須確定每一秒裡面每一幀上面的每一個像點到底應該呈現什麼樣的顏色,這要做大量的計算之後才能產出。

當我們看到一部迪士尼或者是皮克斯動畫的時候,背後動用的是好幾部超級電腦。像今年的 Zootopia《瘋狂動物城》,或者是去年的《大白》(超能陸戰隊),這些都至少動用了 3 到 4 部的超級電腦,每一部超級電腦要 2000 台左右的伺服器做計算,最後才能成片。

我們目前的服務模式是這樣的,左邊是很多的動畫工作室、特效工作室,以及接下來的 VR 工作室,當要做比較高質量的內容,自己的計算力肯定是不夠的。如果只用他們工作室裡的電腦,像 Zootopia 這樣的作品大概要算幾十年可能都算不完。工作室的項目資料通過各種方式傳到我們的超級電腦上,我們依據演算工具和參數很快完成,再交成片給他們。

我們現在自有的集群大概有 2000 多台頂尖的伺服器,我們還跟天河二號、阿里雲等進行戰略合作,目前大概調用一萬台左右的服務器,在為我們的客戶做服務。目前的成果是 40 多個國家,3 萬多用戶,裡麵包括兩個奧斯卡獎。

大家可能覺得,一萬台雲服務器? !太多了吧!其實一點都不多。

像皮克斯這樣的公司,光是用來計算自己內部生產的幾部動畫片,所要準備的服務器大概就要 3 到 5 萬台。像 Weta 工作室(在新西蘭),自有的服務器也是在 3-6 萬台。說來動畫電影是個重工業。

這個是好萊塢 5 年之間大概 700 部片子的圖表。把不同類型影片的票房、成本、存活率做了分析。最後分析下來結果是這樣:

這是美國 6 大影業集團在投資上面的預算分佈。那些需要用電腦去做的片子,像《哈利波特》《阿凡達》這些,佔了不管是票房、預算數還是奧斯卡得獎數的大部分。在電腦圖形圖像相關的所有產業裡,電影是最前沿也最成熟的一個,它的成長脈絡很值得我們藉鑑。換句話說,也能為 VR 產業的行程起到參考作用。

這是我 92 年的照片,那個時代是工作站電腦往 Intel PC 過渡的階段。從這時開始,個人持有電腦的比例直線上升,造就了各種各樣的創新。我負責規劃和銷售工業與學術影像分析、多媒體工作站電腦、動畫與模擬軟件的解決方案。其中,也包括喬布斯的 NEXT 工作站。

喬布斯重新發明了好幾個產業,動畫電影正是其中之一。電影史上,第一部整片都由電腦製作的動畫電影《玩具總動員》,是喬布斯買了皮克斯公司之後,在 1995 年推出的。我把它所需的計算能量和 2015 年的《超能陸戰隊》做了一個比較,20 年來多了 80,000 倍。我們可以保守想像未來 20年,一部動畫電影需要的計算量也至少增加 80,000 倍!

我們把未來計算能量的成長性,分別就視覺技術規格和內容精緻度上,做進一步的探討。

在技術規格上:

首先是分辨率和每秒幀率。

今年李安做的新片叫《比利·林恩漫長的中場休息》,整個好萊塢媒體都在洗版報導這部新電影,樹立了新的標杆,大家電影院看到的大部分是2k的,李安這部片子用的是 4k 3D,換句話說就是 8k,而且是 120 幀每秒,裡面許多快速移動的物體,比如煙火、戰爭畫面,每一個細節都不是模糊的,雖然動作很快,但每一個細節都是清晰的。

我前陣子去拉斯維加斯看 NAB 展,NAB 是全世界最大的視覺設備展。我看了 NHK 推出的 8K 電視系統,從拍到傳到製到播。在看播放展示的時候,我感動得眼淚差點掉了下來。我從沒有期待我在看一個技術展示的時候,它竟在內容和情感上說了一個完全不同的故事。播放的主題原來並不算特別,就是一個師傅在握壽司。但透過 8K 和 120 幀的高幀率,我清楚看到他手上的厚繭以及繭上的紋路,讓人想到他用青春歲月辛勤努力了十幾二十年,握過多到數不清的壽司,才能受人尊敬,優雅地受邀站在聚光燈前。因為 120 幀,因為 8K,整個故事脈絡都在清晰的畫面細節上瞬間說了出來。

這裡說明高幀率如何影響畫質,以高速移動的物體來說,右上角24幀每秒,飛機的翅膀是糊的。而右下角這個即使只是提高到60幀每秒,翅膀看起來就清晰非常多。

內容的細緻度

內容細緻度,對視覺體驗感受影響很大。我們舉動畫裡的毛髮做例子。這張圖說的是目前動畫毛髮細緻度的世界紀錄,統計每一隻公仔角色上有多少根獨立毛髮。目前最高的世界紀錄是《怪物大學》,一隻怪獸身上有 500 萬根獨立的 3D 毛髮!

這些毛髮是用電腦做的獨立物體,因為是獨立物體,所以每一根毛髮飄動時才都是千姿百態、清晰可辨、栩栩如生的。

我們做的渲染計算服務,按每台機器每小時收錢。影像越複雜,分辨率、幀率、細節精緻度、計算量就越大,收的錢當然也越多…….我們很高興看到現在的導演們都很有追求。 (笑)

接下來我們談談,VR 應用到底要多久會成熟的問題:

90 年代的 VR 頭盔是這樣的,上面還要用線吊著,不然沒有人脖子受得了。現在大家的商業眼光犀利,一看就知道這樣是沒有辦法商用的。但是當時還是非常熱,有一波波投資熱潮。

這條是全球頂尖的科技產業研究機構 – Gartner,每年都會發布的科技產業 Hype Cycle 報告,標出了不同的技術大概在生命週期的什麼地方。這張圖可以運用到很多地方,讓我們在面對很多新技術和商業機會的時候,能夠去駕馭它的投資週期,從宏觀到微觀做出很多判斷和決定。

到這一波的 VR 浪潮,個人覺得目前這波還在概念前期,有小範圍個別實用的機會,但離大規模實用還得等上幾年。和 90 年代那一波的差別是,因為前些年有智能手機和可穿戴設備的鋪墊,VR 在機電元件和計算領域的其他基礎相對是完備的,所以移動到 Hype 曲線後段大規模實用階段的時間應該不會太長。

趨勢關注

近期有些值得關注的趨勢。這是 Facebook 推的 360 度相機 Surround,他們要把這上面的軟硬件全部開源,這是今年就會產生的事情。我們知道未來幾年 VR 頭盔上面最多的內容就是由全景相機產生的,所以一旦開源,全景相機的數量會增加非常多。

德國 Fraunhofer 公司在 NAB 首發的產品,他們號稱會是未來品質最高的 360 全景相機。

這個是 Nokia 的 OZO,在產品化的全景相機裡面,它是品質最高也是價錢最貴的之一,6 萬塊美金一套,4K 的相機有 8 部,可以直接連網做 VR 直播。

現在我們看的高質量影像,最多用的攝像機就是 RED。他們出了很具野心的 8K 相機叫做 WEAPON,重裝備武器的意思,大家可以想像拍出來的數據的量非常恐怖,需要的計算能量也非常恐怖。它們將會帶動生態系裡各種各樣設備的研發跟創新。

如果覺得這些技術實踐已經展望得很遠了,那是因為我們還沒看過 LYTRO。

我參加了光場相機 Lytro Cinema 在 Las Vegas 的首發。到現在為止,電腦建模產生的影像和實拍影像基本是兩個世界。但是光場相機把實拍和電腦圖像整個做連接。傳統實拍把景像變成平面化產出,光場相機產出的是包含所有空間座標在內的點雲。實拍完成,電腦建模圖像也完成了。

我們來看畫面上這個展示:

一對新人在拱門前接吻,後面有個拿梯子工人走來走去。

以往的實拍攝影這只能作廢NG,或是用後製人員一幀一幀人工擦掉。

光場攝影,只要把拱門到牆壁之間的所有座標點去除,畫面瞬間乾淨!

這個光場相機拍出來的像素是七億五千五百萬,每秒 30 0幀,後面直接接 Google 的超級電腦,這後面需要的計算能量可想而知。

很多人說,你們太瘋狂了,做了一個恐龍級的巨大怪物。

Lytro 的人說:呵呵,我們還打算做個更大的!

許多大廠投資的 Magic Leap,產品還沒上市就超過 50 億美金,阿里一口氣投了 7 億美金。以後我們戴眼鏡就能夠進入到 VR 的世界。

我們來到 NHK 的 8K 電視系統,這張照片是它的轉播車內部,感覺像是在超級電腦中心,或核子潛艇裡。這就是十年後的電視世界,配上光纖到府,2020 年之前,在座部許多人的家裡就可以看到 8K 電視。

視覺大數據與人工智能 AI

人工智能領域現在非常火,像大家最近看到的 AlphaGo 啊,在這之前,你首先要有數據。

我個人來看,未來 10 年最多的數據就是從視覺信號產生的,再加上今後可穿戴的視覺設備增加之後,每一個人的視覺能力就不再只是我們作為一個自然人所具備的那樣局限。透過無人車技術所開發的視覺及處理能力,將在每個人身上就能擁有:包括多角度可見光電腦視覺、多光譜電腦視覺、大數據集成加人工智能等。

覺體驗在未來的十年會有翻天覆地的改變。我曾想過這樣一個命題,如果一個小孩從出生到死亡都戴著 VR 頭盔,那裡面的世界才是真的世界呢還是外面的世界?這個問題真的很難說,留給大家去思考。

有一點我們可以確定的是,想像力在未來會越來越重要。以後的孩子更需發揮天生就有的想像力,而不是在亞洲式的教育體制裡被做成罐頭。

最後,我個人很期待在 VR 的世界裡,看到人類的同理心和想像力能夠有更大的發揮,從這裡我們通向一個更美好的世界。

謝謝大家!

(鼓掌)

Oh, One More Thing. (走回舞台)

回應剛才有位講者提到,建議多關注甚至參與國際間的專業學術會議,是保持行業競爭力很重要的作法。我個人推薦關注電腦圖形圖像界的 SIGGRAPH 和人機交互的 CHI,這都是領域裡頂級的學術會議。我個人也擔任 SIGGRAPH ASIA 2016 年會的視覺互聯網論壇主席,12 月 5-8 號在澳門威尼斯酒店舉行,歡迎大家來參加。

謝謝大家!

演講視頻網址:http://v.qq.com/page/y/o/z/y03020lv4oz.html

Related Articles