手機功能越來越先進,“手上人工智能”正在成為一種趨勢,一些應用不再使用云服務,而是在手機本身上完成人工智能(AI)計算,而一些業(yè)界人士也認為,大部分移動應用未來都將成為AI應用。外媒fastcompany分析了這一趨勢。


蘋果iOS10正式版將于9月13日開始推送,iPhone機主升級系統(tǒng)之后,就可以找到幾乎在任何時候和任何地方,任何人或任何東西的照片。
新的iOS10的神經(jīng)網(wǎng)絡人工智能可以在十分之一秒的時間里進行110億次計算,不僅能辨別出每張照片里的人是誰,甚至能辨識出他們的情緒如何。
“手上人工智能”正在成為一種趨勢,iOS10的照片應用只是最新的一個例證。
今年1月份發(fā)布的應用Aipoly可以識別物體,并大聲說出這些東西的名字,為盲人用戶帶來了福音。
而且,如果你使用谷歌(微博)翻譯,只要把攝像頭對準一些文字,它就能把這些文字翻譯成另一種語言。就算是在沒有蜂窩信號的地方,這些功能也可以使用。
在手機上進行AI處理的好處
對于“它的工作原理是怎樣”這樣的問題,“云計算”正在成為某種標準答案,但是,智能手機已經(jīng)奪回了一定的獨立性:本來需要與服務器中心連接才能執(zhí)行的一些任務,現(xiàn)在直接在手機上就能完成。
這可以為用戶提供更加自然流暢的AI經(jīng)驗,因為不需要互聯(lián)網(wǎng)連接到數(shù)據(jù)中心,就不會有令人心煩的滯后現(xiàn)象。
“如果我說,'嘿,Siri的,這是什么?”它需要兩秒鐘的時間把照片發(fā)送到云服務并獲得回應,”Aipoly的聯(lián)合創(chuàng)始人阿爾貝托·里佐利(AlbertoRizzoli)說。
“感覺就像是在和一個剛剛從夢中醒來的人交談。”Aipoly不是第一次試圖幫助盲人看東西的應用;但它是這類服務中第一個不依賴云服務,直接在手機上運行AI,立即識別東西的應用。”
有了這樣的即時AI,增強現(xiàn)實(AR)就可以遠遠超越PokémonGo的層次,準確地映射周圍的環(huán)境,把3D物體、人物和動畫插入到手機或平板電腦屏幕上的視頻源中。
同樣,有了移動AI,虛擬現(xiàn)實(VR)看上去也會更加逼真。
手機芯片制造商高通的產(chǎn)品管理總監(jiān)加里·布洛特曼(GaryBrotman)是機器學習平臺的負責人,他說:“要正確實現(xiàn)VR,所有東西都必須是完全實時的。你必須要能夠呈現(xiàn)視頻和音頻,擁有支持眼動跟蹤、頭部跟蹤、手勢跟蹤以及空間音頻跟蹤(以便把房間的聲學效果映射到虛擬體驗中)的人工智能。”
AI也將為用戶提供一些非常方便的功能。里佐利說,以后的虛擬助理可能會使用手機攝像頭來識別你所在的位置,比如具體是在哪條街道,哪個餐館,并調(diào)出相關的應用。
而且這些方便的功能可能不會再有延遲。如果未來的AI并不需要云計算,那么云計算就不需要掌握你的個人信息。
“在手機上進行分析和人工智能處理有很多好處,比如保護隱私,消除延遲等等。”布洛特曼說。
是什么把AI的力量賦予了手機?是電子游戲。
“人們希望在手機或者平板電腦上玩更好的游戲,”里佐利說。“因此,蘋果變得特別擅長于提供更好的性能,高通和其他芯片廠商也是如此。”這推動了移動CPU和GPU的發(fā)展。
雖然大部分的CPU都是順序執(zhí)行任務的,GPU卻可以并行執(zhí)行簡單但數(shù)量龐大的任務,這是快速渲染3D圖形所必需的。另外,AI也需要硬件可以連著執(zhí)行多個簡單任務。
就拿“卷積神經(jīng)網(wǎng)絡”(當前主流圖像識別技術(shù))舉例來說吧,它仿照大腦視覺皮層的工作原理,把視野劃分成一個個重疊的小塊,然后以一層連一層地過濾簡單的細節(jié),比如這些小塊的邊緣。
這些信息被傳輸?shù)搅硪粚由窠?jīng)元(對人類來說生物性的,對軟件來說是虛擬的),它可能會把邊緣合并成一條條線;另一層神經(jīng)元可能會識別出原始形狀。
每一層(可能有幾十層)都會進一步細化對圖像的感知。“你在看一張照片的時候,你會在同一時間識別出它的各種元素,”里佐利說。“你識別出邊緣,識別出形狀。這一切都可以并行進行。”
對硬件的需求
早在幾年前,智能手機的芯片已經(jīng)準備好了迎接這種挑戰(zhàn)。在升級iOS10之后,即使是2013推出的iPhone5s也足以支持新的人臉識別、場景識別,以及對象識別。
Aipoly正在制作可以在iPhone5上,以及可以在上市已經(jīng)好幾年的Android手機上運行的版本。但是程序員最近才剛剛開始利用這種能力。今年6月份推出的照片特效應用Prisma就是其中的佼佼者。
這個應用是25歲的阿列克謝·莫伊申科夫(AlekseyMoiseenkov)開發(fā)的。
Prisma用戶可以把智能手機上的照片用30多種藝術(shù)風格進行加工,比如“吶喊”、“蒙德里安”風格等等。加工后的效果呈現(xiàn)馬上就可以呈現(xiàn)出來,用戶完全不會注意到背后的計算有多么復雜。
Instagram上的那種濾鏡提供的是簡單的調(diào)整,比如顏色、對比度、亮度或白平衡等等基本參數(shù)的調(diào)整。但Prisma需要分析圖像,識別出相似的形狀、線條、色彩和陰影等等元素,然后以蒙克(EdvardMunch)或蒙德里安(PietMondrian)的風格進行重新繪制。即便是平淡無奇的照片,經(jīng)Prisma加工之后也可以呈現(xiàn)出驚艷的效果。
Prisma最初使用了云服務來完成這些工作,但莫伊申科夫說,這么做損害了該應用的質(zhì)量。
“我們有很多的用戶在亞洲,”他說,“我們需要給他們提供同樣的體驗,無論他們用什么方式上網(wǎng),無論服務器在哪里”。
8月份推出的iPhone版Prisma完全在手機上運行,莫伊申科夫目前正在開發(fā)完全在手機上運行的Android版Prisma。
而且Prisma即將推出一個既可以對照片又可以對視頻進行藝術(shù)化處理的版本。發(fā)布時間可能就在本月內(nèi)。
莫伊申科夫說,“把視頻上載到服務器進行各種處理,比處理照片更加復雜得多,”所以,直接在手機上實現(xiàn)藝術(shù)化處理是至關重要的。
廠商提供的支持
為了讓AI軟件能在手機上運行,莫伊申科夫和他的團隊不得不從零開始編碼,但以后可能不會這么辛苦了。
今年5月,高通為驍龍820芯片推出了一個軟件開發(fā)工具包,名為“神經(jīng)處理引擎”(NeuralProcessingEngine)。
2016年的高端Android手機,如三星GalaxyS7和Note7,MotoZ和ZForce、OnePlus3、HTC10和LGG5,都采用了驍龍820芯片。
這個軟件可以在CPU,GPU和該芯片的其它部件之間切換,以支持場景檢測、文字識別、面部識別和自然語言處理(理解語音對話,而不是僅僅是理解命令式的語音指令)等任務。
專業(yè)AI芯片也正在研制之中。一家名為Movidius的公司推出了VPU(visionprocessingunits,意思是視覺處理單元),對計算機視覺神經(jīng)網(wǎng)絡進行了優(yōu)化(就在本周,芯片巨頭英特爾達成了收購Movidius的協(xié)議)。
DJI的Phantom4無人機就搭載了該公司最新的Myriad2芯片,用來幫助無人機發(fā)現(xiàn)和避免障礙物,在空中懸停,并跟蹤自行車或滑雪者這一類的移動物體。
Myriad2的功耗大約只有1瓦,足以在手機上運行。對于Movidius未來的產(chǎn)品,該公司做過一些模糊的聲明。
今年6月,它公布與聯(lián)想公司“達成戰(zhàn)略合作伙伴關系,為各種以VR為中心的聯(lián)想產(chǎn)品提供先進的視覺處理技術(shù)。”這些產(chǎn)品可能是VR頭盔,或者是手機,或者兩者都包括。
今年1月,Movidius和谷歌宣布合作“以加速移動設備上的深度學習”,但之后Movidius就不再透露和谷歌交易的更多信息。
蘋果的AI規(guī)劃
蘋果在今年6月推出iOS10預覽版之前,對自己的AI計劃一直都含糊其辭。
照片應用可能占了蘋果AI計劃的大頭。它使用了神經(jīng)網(wǎng)絡深度學習過程,可以識別照片中的場景、對象和人臉,把它們進行歸類,讓用戶可以搜索它們。
其Memories功能可以把你出現(xiàn)過的照片和視頻組合起來,或某個地方的照片和視頻組合起來,或者是它認為涉及一個重要事件(比如一場旅行)的照片和視頻組合起來。蘋果說,直接在手機上完成全部工作可以保證個人信息的私密性。
蘋果公司的預測打字功能也運用了神經(jīng)網(wǎng)絡,這個功能可以幫助你完成句子,其實早在iOS10之前,蘋果就已經(jīng)在使用AI。
2014年7月,蘋果把Siri轉(zhuǎn)移到了一個在手機上運行的神經(jīng)網(wǎng)絡系統(tǒng)上,以改善Siri的語音識別能力。
Siri現(xiàn)在是應用開發(fā)商利用iPhoneAI系統(tǒng)的一條路徑。蘋果尚未像高通為驍龍芯片做的那樣,為其A系列芯片發(fā)布AI編程工具,但蘋果有一個叫SiriKit功能,開發(fā)人員可以把自己的應用連接到這個功能上,這樣一來,用戶就可以通過與Siri聊天的方式,與開發(fā)人員的應用進行交互了。
而且蘋果在幫助第三方開發(fā)者利用AI上付出的努力,未必落后高通多少。
最近蘋果花費了據(jù)說2億美元,收購了一家為程序員提供AI工具的公司,名叫Turi。而且開發(fā)者還將獲得更加強勁的動力:在iPhone7和7Plus上,新的A10Fusion芯片擁有一顆CPU,運行速度比上一代iPhone的CPU快40%,另外圖形處理速度也加快了50%。
隨著AI在科技領域開疆拓土,它似乎注定會在手機上獲得增長。用戶越來越期望設備能夠理解他們想要什么,他們的意思是什么。
“我可以說,大部分移動應用都將成為AI應用,”納爾多·曼納洛托(NardoManaloto)說。他是AI工程師兼顧問,側(cè)重于醫(yī)療保健應用,比如虛擬醫(yī)療助理等等。
阿爾貝托·里佐利預計,明年1月的CES大會上將涌現(xiàn)大量新的應用。
“有了更多的深度學習軟件工具之后,應用開發(fā)人員在這方面的意識就會增強,他們就會跟隨這種發(fā)展,”他說。
“目前計算機科學領域有很多人仍然覺得這是一種黑科技……當然事實上并不是這樣。”