如果你以為查單詞必須正確拼寫,再通過快譯通、電腦軟件,更時尚一點的是用手機軟件查詢,那你就out了。極客的做法是,只要你的手機上裝有谷歌翻譯的APP,你對著它說自己的母語,它就能立刻翻譯成當地語言,并直接幫你讀出來。谷歌翻譯為什么能超越其他翻譯產品,更酷更聰明?近日,谷歌翻譯研發經理陳雍昇為我們揭開了谷歌翻譯背后的技術面紗及其所承載的谷歌整體產品戰略的重要使命。
智能的機器翻譯
2004年,谷歌創始人之一塞吉·布林使用市面上的網絡翻譯服務來翻譯韓國粉絲的郵件,結果顯示:“生魚片帶著它的愿望,用谷歌搜索綠洋蔥!”。這一與原意風馬牛不相及的翻譯結果使塞吉下定決心要使谷歌做出靠譜的翻譯產品。
如今,作為一項免費的翻譯服務,谷歌翻譯可提供57種語言之間的即時翻譯。它可以提供所支持的任意兩種語言之間的互譯,包括字詞、句子和網頁翻譯。目前,谷歌翻譯可以幫助用戶閱讀搜索結果、網頁、電子郵件、YouTube視頻字幕以及其他信息,用戶甚至還能在Gmail內進行實時的多語言對話。
“值得注意的是,谷歌翻譯是個自動翻譯機,也就是說,它借助的是技術而非人力?!惫雀璺g研發經理陳雍昇指出,谷歌翻譯是先往計算機內輸入大量的文字文本,涵蓋目標語言的文本和對應翻譯文本中現在的人工翻譯數據,然后構建統計翻譯模型。
每年,谷歌都會從一些政府部門、學術機構搜集翻譯信息,完善自己的平行語料庫,所謂的平行語料就是兩種語的對應詞組或者句子,比如,“long”的平行語料是“長”、“time”的平行語料是“時間”,但詞組“long time”的平行語料卻不能只是兩個單詞的簡單拼接,而是“很久”,句子“I have been here for a long time”的平行語料則是“我已經在這里很長一段時間?!?/span>
分布式計算和整合信息
從表面上看,支持的語言種類多和必須在線使用是谷歌在功能上與市面上同樣流行的金山詞霸、有道詞典等翻譯工具的功能區別,但背后最大的不同卻是,谷歌在云計算支撐下的統計翻譯模型。谷歌翻譯之所以采用統計翻譯模型一個重要原因就是谷歌的云計算架構。機器翻譯需要海量的數據存儲空間以及高效的運算能力,而谷歌擁有谷歌MapReduce(分布式計算系統)和BigTable(分布式存儲系統)。
“整合全球信息,使人人皆可訪問并從中受益,這是谷歌公司始終秉持的信條,也是它的產品戰略”,陳雍昇表示谷歌翻譯雖然并不是谷歌最大的研發部門,但它與Android、Chrome甚至Youtube一樣,都是為谷歌實現整合全球信息的目標服務的。
谷歌希望將分散在全球各地的,所有可以數字化的,不同語言、不同格式、不同類型、不同版本的信息,進行分析處理后,以最簡便的方式提供給用戶使用,無論這些內容是來自某個地區的方言、書本或多媒體的內容,還是地圖等基本的生活信息。這也可以解釋為什么每次技術論壇上,谷歌都會在翻譯這款產品上大費唇舌,因為它代表了一種理想化的溝通形態,即全球信息的無障礙流通。