古人說(shuō),給我一個(gè)支點(diǎn),給我一個(gè)足夠長(zhǎng)的杠桿我能撬起地球;程曦介紹說(shuō),谷歌翻譯幕后功臣曾經(jīng)說(shuō),給我足夠的平行語(yǔ)料庫(kù),我可以在一個(gè)小時(shí)之內(nèi)把任何兩種語(yǔ)言互譯出來(lái)。
能夠讓谷歌的工程師實(shí)現(xiàn)這句話(huà),依靠的是谷歌堅(jiān)持的“統(tǒng)計(jì)翻譯”的方式和谷歌大量的、并不斷增長(zhǎng)的數(shù)據(jù)。程曦表示,谷歌翻譯能夠依靠統(tǒng)計(jì)翻譯理念發(fā)展到今天,其實(shí)要感謝IBM在1993年提出這個(gè)理念,這是具有劃時(shí)代意義的。
谷歌從2003年開(kāi)始研發(fā)翻譯產(chǎn)品,經(jīng)過(guò)不斷改進(jìn)和添加功能,現(xiàn)在可以實(shí)現(xiàn)實(shí)時(shí)的翻譯、為網(wǎng)站提供語(yǔ)言翻譯轉(zhuǎn)換插件、在翻譯同時(shí)提供相關(guān)搜索結(jié)果,等等功能。隨著通過(guò)谷歌搜索納入數(shù)據(jù)量的增加,統(tǒng)計(jì)翻譯帶來(lái)的翻譯質(zhì)量理論上也會(huì)相應(yīng)不斷提高。
很顯然,谷歌翻譯已經(jīng)不是一個(gè)純粹的翻譯產(chǎn)品,或者說(shuō)是改變了人們印象中的翻譯產(chǎn)品的概念。谷歌宣稱(chēng)自己的使命是“管理全世界的信息”,如谷歌程曦所說(shuō),谷歌產(chǎn)品的發(fā)展目標(biāo)是為了“使全世界的信息能夠變得非常易用,而且讓世界上所有人都用”。
但語(yǔ)言是其中的一個(gè)障礙;轿幕械膫髡f(shuō)是,上帝為了阻止人類(lèi)建造能登臨天堂的巴別塔,讓人類(lèi)開(kāi)始說(shuō)各種不同的語(yǔ)言,因此引起紛爭(zhēng)。但時(shí)至今日,全球化讓不同語(yǔ)種人間的溝通顯得空前重要,科技的巨大進(jìn)步讓各種科技產(chǎn)品的實(shí)現(xiàn)成為可能。
精彩觀點(diǎn):
肯定一點(diǎn)的就是我們的這個(gè)團(tuán)隊(duì)不會(huì)有人說(shuō)所有的51種語(yǔ)言,然而這正是基于統(tǒng)計(jì)的機(jī)器翻譯和數(shù)學(xué)所最美麗的地方,它可以利用這些統(tǒng)計(jì)規(guī)律,讓你在不懂這些語(yǔ)言的情況下,讓你以足夠的理性去分析這些語(yǔ)言所共同出現(xiàn)的這種現(xiàn)象,然后用計(jì)算機(jī)這個(gè)完全不懂人類(lèi)語(yǔ)言的東西從中找出規(guī)律,幫助我們進(jìn)行翻譯。
隨著互聯(lián)網(wǎng)不斷的發(fā)展,我們看到的爆炸性的趨勢(shì),2003年整個(gè)互聯(lián)網(wǎng)上產(chǎn)生的所有的文本的數(shù)量比人類(lèi)在2002年以前所有產(chǎn)生的文本數(shù)量還要大,隨著這樣的一個(gè)爆炸趨勢(shì),人們?cè)絹?lái)越多的能夠產(chǎn)生很多很多的內(nèi)容,我們希望通過(guò)這些數(shù)據(jù)能夠進(jìn)一步提高我們的翻譯的質(zhì)量,這是最重要的。
有意思的故事,我想最有名的一句話(huà)可能是“谷歌翻譯幕后功臣曾經(jīng)說(shuō)過(guò)一句話(huà),他效仿的是一句古人說(shuō)過(guò)的話(huà),古人說(shuō)給我一個(gè)支點(diǎn),給我一個(gè)足夠長(zhǎng)的杠桿我能撬起地球,但是他曾經(jīng)說(shuō)過(guò)一句話(huà),給我足夠的平行語(yǔ)料庫(kù),我可以在一個(gè)小時(shí)之內(nèi)把任何兩種語(yǔ)言把你翻譯出來(lái),這是一句非常有意思的話(huà)。也是展現(xiàn)了科學(xué)家對(duì)于這個(gè)行業(yè)的理解。
其實(shí)我們所有的人都應(yīng)該感謝IBM曾經(jīng)在1993年的時(shí)候它有四個(gè)研究型的科學(xué)家提出了當(dāng)時(shí)基于統(tǒng)計(jì)的翻譯模型,這是具有劃時(shí)代意義的,這個(gè)開(kāi)創(chuàng)了整個(gè)基于統(tǒng)計(jì)的機(jī)器翻譯的理論基礎(chǔ)。
從計(jì)算機(jī)科學(xué)的角度來(lái)講,我們所說(shuō)的數(shù)據(jù)給了我們這個(gè)機(jī)器學(xué)習(xí)的樣本,這個(gè)算法決定了我們學(xué)習(xí)這個(gè)樣本的準(zhǔn)確程度和速度,這兩者完全是一樣重要的,丟了哪個(gè)都不能繼續(xù)下去。大家甚至可以繼續(xù)想一想,數(shù)據(jù)就好象是大家學(xué)習(xí)的本身的材料,課本本身,但是算法決定著你學(xué)了這個(gè)東西以后去應(yīng)用它的時(shí)候有多么準(zhǔn)確和多么的快。
谷歌有一個(gè)使命,我們不斷地重復(fù),產(chǎn)品的所有發(fā)展都是沿著這個(gè)方向來(lái)的,“使全世界的信息能夠變得非常易用,而且讓世界上所有人都用”,大家可以看到語(yǔ)言就是這樣的一個(gè)障礙,我們希望翻譯在線,甚至是翻譯在線所延展出去的這些翻譯能夠解決人們這樣的問(wèn)題。
我曾經(jīng)在摩洛哥旅行,我會(huì)說(shuō)英語(yǔ),我會(huì)說(shuō)中文,然后到了那兒以后,那兒的官方語(yǔ)言是法語(yǔ)和阿拉伯文,看著路牌上的豆芽完全不懂,這個(gè)時(shí)候我突然意識(shí)到一點(diǎn),我即使拿上一本字典,我也不知道怎么查。大家可以想一想,未來(lái)翻譯發(fā)展的空間實(shí)際上是非常大的,人們?nèi)フf(shuō),人們?nèi)?xiě),人們?nèi)ヅ恼眨@些東西將會(huì)和翻譯的這種功能結(jié)合起來(lái),讓人們解除所有的溝通上的障礙。
以下是谷歌中國(guó)用戶(hù)運(yùn)營(yíng)部經(jīng)理程曦專(zhuān)訪實(shí)錄:
騰訊科技:各位騰訊科技的網(wǎng)友,大家好!非常感謝大家關(guān)注我們騰訊科技的嘉賓訪談節(jié)目。
我們今天非常高興請(qǐng)到的是谷歌中國(guó)用戶(hù)運(yùn)營(yíng)部經(jīng)理程曦,我們知道在今年11月26號(hào),谷歌的翻譯產(chǎn)品全新改版上線,這是中國(guó)的工程師團(tuán)隊(duì)第一次主導(dǎo)谷歌的一個(gè)產(chǎn)品。
我們今天非常高興請(qǐng)到了谷歌中國(guó)的用戶(hù)運(yùn)營(yíng)部的代表來(lái)跟我們討論一下新版上線的新的一些功能和谷歌翻譯這個(gè)產(chǎn)品發(fā)展上的一些策略上的想法和未來(lái)的一些趨勢(shì)。
程曦你好!首先請(qǐng)你跟我們的網(wǎng)友打一個(gè)招呼。
程曦:騰訊科技你好,各位觀眾,各位網(wǎng)友們,大家好!
騰訊科技:我們知道新版的谷歌翻譯上線是谷歌中國(guó)的團(tuán)隊(duì)第一次主導(dǎo)這個(gè)產(chǎn)品,那么為什么谷歌會(huì)把這樣一個(gè)產(chǎn)品給到中國(guó)的工程師團(tuán)隊(duì)呢?
程曦:其實(shí)原因也很簡(jiǎn)單,谷歌在全球的工程部它是分散在全球的,所以谷歌在中國(guó)部門(mén)正好被選中來(lái)做這樣的一個(gè)產(chǎn)品,然后我們實(shí)際上還有其他很多工程師負(fù)責(zé)的是全球的產(chǎn)品,例如說(shuō)有地圖,包括有網(wǎng)頁(yè)搜索的中文部分,還有例如說(shuō)有社區(qū)類(lèi)的產(chǎn)品都是全球的項(xiàng)目,但是會(huì)分散在全世界的各個(gè)地方去開(kāi)發(fā)。
騰訊科技:這次把翻譯的這個(gè)項(xiàng)目給中國(guó)的團(tuán)隊(duì)來(lái)做,那是有一個(gè)什么樣的特別的考慮嗎?因?yàn)槲覀冎乐形氖窃谌澜鐡碛凶畲蟮娜丝诜秶怯羞@樣一個(gè)特別的考慮嗎?
程曦:大家可以想一想,考慮到所有的語(yǔ)言之間的翻譯來(lái)講,中文和英文加起來(lái)就能夠囊括世界上將近一半的人口,所以這個(gè)也是很顯然的一個(gè)理由,會(huì)把翻譯這個(gè)產(chǎn)品放在中國(guó)來(lái)做。
主要語(yǔ)種:英語(yǔ)翻譯 日語(yǔ)翻譯 韓語(yǔ)翻譯 法語(yǔ)翻譯 德語(yǔ)翻譯 俄語(yǔ)翻譯 西班牙語(yǔ)翻譯 意大利語(yǔ)翻譯
|