如果要說蘋果的 Siri 有什麼足夠碾壓競爭對手的優勢,那不用說肯定是它所支持的語言數量瞭。在其他的語音助手仍然將英語視為主要目標的時候,Siri 這邊已經開始拓展各種方言瞭。那麼多不同的語言和方言,Siri 是怎麼學的呢?現在我們終於找到瞭答案。
厲害瞭 Siri
中國幅員遼闊,人口眾多,南和北、東和西之間地形地貌變化很大,這樣的環境自然也就創造出瞭豐富多樣的口音和方言。各種方言在發音、用詞上都有著相當多的不同之處,即使是以普通話作為規范,由此派生出的各式口音更是變化無窮。正是因為如此,語音助手想要在中國紮根,本土化是繞不開的一關,更是一大難點。
不過這樣的困難看起來並不能嚇退蘋果,反而讓它越走越遠。不久前人們得到確認,蘋果表示會在即將到來的 iOS 10.3 版本中加入 Siri 對上海話的支持,一下子成為瞭熱點。上海話在發音和用詞上都和普通話有相當的差異,蘋果要支持 Siri 的上海話,那就相當於蘋果要再新開一條語言“科技樹”瞭。
你可以認為 Siri 有很多槽點,但它所支持的語言數量是黑不得的。目前 Siri 能夠使用 36 個國傢裡的 21 種語言,可見其中涉及到的不同口音和方言眾多。與此相比,微軟的小娜能識別 13 個國傢的 8 種語言,谷歌 Assistant 則隻會 4 種,Alexa 幹脆就隻學瞭英語和德語。
既然蘋果那麼頻繁要為 Siri 添加各種各樣的語言,那麼是不是它學習新語言的過程會比較特殊呢?正好蘋果語音團隊如今的負責人亞歷克斯·阿賽洛(Alex Acero)最近難得地說瞭很多,我們就借此機會來瞭解一番吧。
Siri 的學生時光
當蘋果決定要為 Siri 帶來一個新的語言支持之後,它首先會讓一批對應這種語言(或方言及口音)的人朗讀各種各樣的短文和詞語列表。如果新加入的是一個語言大類,那麼這些人必須擁有不同的口音。
Siri 的語音識別曾經基於 Nuance 的技術。後來蘋果表示,早在 2014 年的時候 Siri 就已經換瞭“大腦”,也就是說將原本比較粗糙的技術換成瞭機器學習機制,讓它具備瞭人工智能特性。基於這個事實,你可能會認為 Siri 就能夠從那些朗讀中直接學習新的語言瞭,其實並非如此。
在大量的文字閱讀完成之後,這些內容將會請另外一批人進行人工轉錄。相比第一次錄入,這一次轉錄發音更標準,更清晰。據說,這樣能夠保證系統有更高的準確度。接著,這些原始數據將會被註入一個以算法驅動的機器訓練模型中。
從這裡開始就是機器學習技術發揮的空間瞭。這個機器訓練模型會根據原始數據,開始嘗試預測對應語言的用詞組合方式。理所當然的,蘋果給它提供的數據越多,算法本身也能夠持續得到改進。最後,蘋果會對這些數據進行一些人工調整,接著就可以進行到下一步瞭。
不知道大傢還記不記得自己 iOS 鍵盤的空格鍵旁邊有一個麥克風?可能蠻多朋友都已經忘記它的存在瞭吧。那是聽寫,簡單來說就是將用戶的語音轉化為文字的功能。我們並不知道的是,聽寫其實正是 Siri 學習新語言的重要渠道之一。
當 Siri 新的語言支持上線前,蘋果一般會推出 iOS 和 macOS 平臺上該語言的聽寫功能。用戶使用聽寫功能時說出的那些話將作為語音樣本,讓 Siri 能夠接觸到更廣泛的人們的說話內容。當然瞭,這些樣本同樣需要經過人工轉錄,因為原文件往往都會充滿環境雜音,說話時也多見咳嗽、停頓等幹擾。阿賽洛表示,這一連串流程下來,Siri 的聽寫出錯率能夠降低足足 50%。
這下,你應該明白為什麼蘋果會很慎重地告知用戶,聽寫的內容是要被錄音並上傳的瞭吧?大傢可以放心,這些錄音都是匿名形式的。
蘋果不斷重復著這些程序,直到團隊認為數據已經足夠多,準確度已經足夠高瞭,那麼就可以正式宣佈 Siri 新語言上線瞭。不過蘋果坦承說,新語言上線之後 Siri 隻能夠回答一些“最常見的要求”,比如“說個笑話”之類的。
在那之後,蘋果還會持續提升 Siri 對這個語言的熟練程度,具體做法是持續收集用戶提出的各種問題,然後以每兩周一次的頻率更新數據庫 —— Siri 當然不可能自己想出答案,蘋果有專門的腳本寫手針對被錄入數據庫的問題給予不同的答案和搜索邏輯。
戰爭剛剛打響
從以上的這些流程我們就能夠看出,每一個新的語言、方言選項的出現,蘋果都需要進行長時間大量的準備工作。即便是在 Siri 經過大量的學習之後,也隻能說是初具職能,還需要後續進行大量的跟進工作。
從這個角度來說,蘋果即將為上海話專門加入 Siri 的支持,這本身也能夠說明它對中國市場的重視程度。盡管此前 Siri 已經有瞭對應臺灣市場的中文分支,也有對應香港市場的粵語,但上海話的加入顯得更加特別,因為這是僅僅對應一個城市的正經的方言,和那些有自己的市場的地區並不一樣。或許,我們未來將會看到更多的中國方言被加入到 Siri 的支持名單中。
一個不太精確的估計顯示,基於 Siri 支持的語言,當用戶使用 Siri 所支持的語言作為第一語言時,蘋果的語音助手覆蓋的人數可達到 24.5 億人,而當加入那些使用其支持語言作為第二語言的人時,覆蓋人數大約有 49 億人。
盡管針對 Siri 的批評不斷,但 Siri 對於國際上的大部分人來說對是比較“友好”的,至少在語言支持方面。毫無疑問競爭對手會逐漸趕上,但 Siri 推出 6 年後,這是蘋果 Siri 的一個巨大優勢。
不過隨著 Siri 支持的語言、方言數量越來越多,有專傢也提出瞭對於蘋果的憂慮。因為現有的人工智能技術不可能做到機器自己回答問題,必須得有相應的隊伍去負責更新和維護。Siri 支持的越多,它所需的寫手乃至其他人員也就越多。即便如此,要讓語音助手表現得隨意自然,這仍然不夠。如今已在三星旗下的 Viv 團隊表示,正確的做法是要讓全世界一起來教育語音助手。
好在蘋果仍然在努力改良技術中,我們也聽說瞭它在英國劍橋有致力於讓 Siri 更加自然的團隊。一旦蘋果解決瞭現有的問題,數字助手的稱霸之戰就要打響。