機(jī)器翻譯技術(shù)的發(fā)展態(tài)勢
經(jīng)過 70 多年的發(fā)展,機(jī)器翻譯在翻譯質(zhì)量、系統(tǒng)性能、實(shí)用性、規(guī)?;瘧?yīng)用等方面均取得了較大飛躍。機(jī)器翻譯呈現(xiàn)百花齊放、滿園春色的蓬勃發(fā)展新態(tài)勢,其產(chǎn)業(yè)應(yīng)用也呈現(xiàn)一派欣欣向榮的景象。目前機(jī)器翻譯技術(shù)有以下五大發(fā)展趨勢:
1. 深度學(xué)習(xí)技術(shù)不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯成為主流
近年來,機(jī)器翻譯的快速進(jìn)步主要得益于深度學(xué)習(xí)技術(shù)的發(fā)展。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在 2014年左右萌芽,并迅速茁壯成長。借助深度神經(jīng)網(wǎng)絡(luò)模型在語義表示及理解方面的能力,以及大數(shù)據(jù)、大算力的支持,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的譯文質(zhì)量大幅躍升,迅速實(shí)現(xiàn)了對統(tǒng)計(jì)機(jī)器翻譯的超越和替換,將機(jī)器翻譯帶入新的發(fā)展階段。
2. 研發(fā)門檻降低,機(jī)器翻譯進(jìn)入規(guī)?;瘧?yīng)用階段
受技術(shù)進(jìn)步、市場需求增多等多重因素影響,國內(nèi)外相關(guān)行業(yè)公司熱情高漲,均投入大量資金和精力研發(fā)大規(guī)模翻譯系統(tǒng)。國外有谷歌、微軟(Microsoft)、Meta(原 Facebook)等,國內(nèi)有百度、阿里巴巴、騰訊、有道、訊飛等。值得一提的是,國內(nèi)公司研發(fā)的機(jī)器翻譯系統(tǒng)在技術(shù)上 具有很強(qiáng)的競爭力,多次在國際機(jī)器翻譯系統(tǒng)評測中拔得頭籌。先進(jìn)技術(shù)通過開源開放平臺共享, 使得產(chǎn)業(yè)各方都可以使用已有的技術(shù)成果,研發(fā)新的技術(shù)。在深度學(xué)習(xí)平臺方面,國外有 Meta 的 Pytorch、 谷歌的 Tensorflow, 國內(nèi)有百度的飛槳 (PaddlePaddle) 等,都集成了最新的機(jī)器翻譯技術(shù)。無論是研究人員還是開發(fā)者,都無需從頭做起,只要有數(shù)據(jù),就可以迅速利用開源平臺搭 建一個機(jī)器翻譯系統(tǒng),大幅降低了機(jī)器翻譯研發(fā)門檻。得益于此,機(jī)器翻譯創(chuàng)業(yè)公司也如雨后春筍般涌現(xiàn) 。
3. 機(jī)器翻譯與行業(yè)緊密結(jié)合,得到廣泛應(yīng)用和認(rèn)可
隨著國際化進(jìn)程的加速,傳統(tǒng)行業(yè)對高效率、高質(zhì)量的機(jī)器翻譯技術(shù)的需求愈加旺盛。不同領(lǐng) 域?qū)π袠I(yè)術(shù)語和文體風(fēng)格等需求各不相同,對譯文的要求也不盡相同。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯可以在大 規(guī)模數(shù)據(jù)預(yù)訓(xùn)練基礎(chǔ)上,結(jié)合行業(yè)知識和領(lǐng)域數(shù)據(jù),進(jìn)行優(yōu)化精調(diào),進(jìn)一步提升垂直領(lǐng)域的翻譯質(zhì)量。 尤其在新聞資訊、學(xué)術(shù)文獻(xiàn)、金融財經(jīng)、生物醫(yī)藥、信息技術(shù)等領(lǐng)域,經(jīng)過優(yōu)化訓(xùn)練的機(jī)器翻譯系統(tǒng)譯文的準(zhǔn)確度可以達(dá)到 90% 以上。
隨著國際化進(jìn)程的加速,傳統(tǒng)行業(yè)對高效率、高質(zhì)量的機(jī)器翻譯技術(shù)的需求愈加旺盛。不同領(lǐng) 域?qū)π袠I(yè)術(shù)語和文體風(fēng)格等需求各不相同,對譯文的要求也不盡相同。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯可以在大 規(guī)模數(shù)據(jù)預(yù)訓(xùn)練基礎(chǔ)上,結(jié)合行業(yè)知識和領(lǐng)域數(shù)據(jù),進(jìn)行優(yōu)化精調(diào),進(jìn)一步提升垂直領(lǐng)域的翻譯質(zhì)量。 尤其在新聞資訊、學(xué)術(shù)文獻(xiàn)、金融財經(jīng)、生物醫(yī)藥、信息技術(shù)等領(lǐng)域,經(jīng)過優(yōu)化訓(xùn)練的機(jī)器翻譯系統(tǒng)譯文的準(zhǔn)確度可以達(dá)到 90% 以上。
4. 多語言翻譯市場需求巨大,相關(guān)研究和應(yīng)用發(fā)展迅速
當(dāng)今世界多種文明和文化相互融合,人類社會豐富多樣的語言交相輝映,“開放共享、合作共 贏”越來越成為各國共識,成為推動社會進(jìn)步的重要理念。實(shí)現(xiàn)高效的多語言翻譯,搭建不同語言 順暢交流的橋梁,是時代和社會發(fā)展的迫切需求。隨著“一帶一路”倡議的深化發(fā)展,截至 2023 年 1 月,已有 151 個國家和 32 個國際組織與中國簽署共建“一帶一路”合作文件1,其中涉及的語 言超過 110 種。多語言翻譯面臨語言資源分布不均衡、非通用語種語言資源匱乏、語言差異大、部 署成本高等挑戰(zhàn),如何克服這些困難備受矚目,成為國內(nèi)外前沿課題研究的焦點(diǎn)。近年來,學(xué)術(shù)界、 產(chǎn)業(yè)界圍繞數(shù)據(jù)增強(qiáng)、多語言統(tǒng)一建模、多語言預(yù)訓(xùn)練等內(nèi)容開展了諸多研究,促進(jìn)了多語言翻譯 技術(shù)的發(fā)展。得益于此,國內(nèi)外主流的機(jī)器翻譯系統(tǒng)均支持多語言翻譯。截至 2023 年初,百度、 訊飛、小牛、谷歌、微軟等國內(nèi)外機(jī)器翻譯系統(tǒng)均支持上百種語言互譯。
5. 翻譯模式由文本翻譯擴(kuò)展到跨模態(tài)翻譯,應(yīng)用場景愈加豐富
隨著智能設(shè)備的普及,翻譯需求和場景日趨多樣。人工智能技術(shù)在圖像、語音等領(lǐng)域的進(jìn)步為跨模態(tài)翻譯提供了技術(shù)支持。如結(jié)合圖像技術(shù)的拍照翻譯和增強(qiáng)現(xiàn)實(shí)翻譯,被廣泛用于票據(jù)翻譯、 外語學(xué)習(xí)等場景;結(jié)合語音技術(shù)的語音翻譯廣泛用于日常會話、會議演講等場景,提升了溝通效率。 2018 年,《麻省理工科技評論》(MIT Technology Review) 將“語音翻譯”列為全球十大技術(shù)突破, 百度和谷歌 (Google) 被列為“關(guān)鍵參與者 (Key Player)”。在 2020 年國際計(jì)算語言學(xué)學(xué)會 (ACL) 年會上,百度、谷歌、臉書、清華大學(xué)、賓夕法尼亞大學(xué)(University of Pennsylvania) 聯(lián)合舉 辦了首屆機(jī)器同傳研討會,極大地促進(jìn)了相關(guān)技術(shù)發(fā)展。近年來,機(jī)器同傳在翻譯質(zhì)量、同傳時延 等方面取得顯著進(jìn)步,機(jī)器同傳被越來越廣泛地應(yīng)用于國際會議。
本文來源:《2023 機(jī)器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用藍(lán)皮書》