機(jī)器翻譯技術(shù)面臨的挑戰(zhàn)和發(fā)展方向
與人們對于翻譯的理想化追求相比,機(jī)器翻譯技術(shù)仍然任重道遠(yuǎn),需要在以下五方面加強(qiáng)研究,持續(xù)突破。
1.機(jī)器翻譯譯文質(zhì)量仍需持續(xù)提升
隨著機(jī)器翻譯技術(shù)的發(fā)展以及大規(guī)模應(yīng)用,人們對于翻譯質(zhì)量有更高的要求和期待。目前機(jī)器翻譯系統(tǒng)主要的翻譯方式是以句子作為翻譯單元,較少考慮上下文以及篇章信息。此外,在翻譯文 學(xué)性較強(qiáng)的內(nèi)容時(shí),通常需要結(jié)合背景知識、歷史文化知識等,甚至要進(jìn)行“二次創(chuàng)作”,而目前的機(jī)器翻譯技術(shù)還無法做到。加強(qiáng)對機(jī)器翻譯結(jié)合上下文信息、融合豐富知識等方面能力的訓(xùn)練將 有助于進(jìn)一步提升機(jī)器翻譯譯文質(zhì)量。
2. 機(jī)器翻譯魯棒性和容錯(cuò)能力需進(jìn)一步加強(qiáng)
機(jī)器翻譯對于輸入內(nèi)容比較敏感,有時(shí)在表意不變的情況下稍微改動(dòng)原文,就可能導(dǎo)致整個(gè)譯文發(fā)生很大變化。此外,訓(xùn)練數(shù)據(jù)中的噪聲、領(lǐng)域分布對于機(jī)器翻譯模型都會(huì)產(chǎn)生較大影響。面對復(fù)雜豐富的應(yīng)用場景,提升機(jī)器翻譯的魯棒性和容錯(cuò)能力,將有助于其在實(shí)際應(yīng)用中發(fā)揮更大作用。
3. 低資源語言機(jī)器翻譯能力仍有待突破
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)的本質(zhì)是數(shù)據(jù)驅(qū)動(dòng)型技術(shù),依賴于大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。然而,在多語言翻譯、垂直領(lǐng)域翻譯中常常面臨數(shù)據(jù)稀缺的問題。盡管技術(shù)方已提出多種解決方案并應(yīng)用于實(shí)際系統(tǒng),但受到資源和現(xiàn)有技術(shù)限制,低資源語言機(jī)器翻譯仍難以滿足高質(zhì)量譯文需求。探索面向低資源語言、少樣本量的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯學(xué)習(xí)機(jī)制,是機(jī)器翻譯的發(fā)展方向之一。
4. 多模態(tài)融合的機(jī)器翻譯技術(shù)需進(jìn)一步探索
近年來,機(jī)器翻譯技術(shù)與語音、視覺處理技術(shù)的結(jié)合取得了較大進(jìn)步,諸如機(jī)器同傳、圖片翻譯等技術(shù)已被廣泛應(yīng)用。此外,多模態(tài)統(tǒng)一建模也取得較大進(jìn)展。多模態(tài)的深度融合將有助于進(jìn)一步提升譯文質(zhì)量、拓展應(yīng)用場景。例如,在同聲傳譯中,演講者的幻燈片材料、語音語調(diào)、肢體語 言等多模態(tài)信息都有助于提升機(jī)器同傳質(zhì)量。2023 年,中國外文局翻譯院智能翻譯實(shí)驗(yàn)室發(fā)布 了《語言服務(wù)行業(yè)的機(jī)器翻譯使用情況調(diào)研問卷》,根據(jù)問卷收集到的反饋數(shù)據(jù),目前語言服務(wù)行 業(yè)對多模態(tài)融合的機(jī)器翻譯技術(shù)有較大需求。如圖 1 所示,超過 70% 的受訪者表示有圖片轉(zhuǎn)文字功 能的需求,超過 65% 的受訪者有語音轉(zhuǎn)寫功能的需求。
您希望能增加哪些附加功能搭配機(jī)器翻譯使用?
圖 1:對機(jī)器翻譯附加功能的需求
5.機(jī)器翻譯相關(guān)標(biāo)準(zhǔn)建設(shè)需繼續(xù)加強(qiáng)
在質(zhì)量評價(jià)體系、人機(jī)協(xié)作模式、語料庫建設(shè)等方面,需結(jié)合技術(shù)發(fā)展形勢和市場需求,加快相關(guān)標(biāo)準(zhǔn)的研制工作。
如對機(jī)器翻譯質(zhì)量的評價(jià),目前仍主要基于 BLEU (Bilingual Evaluation Understudy) 等自動(dòng)評價(jià)指標(biāo)以及面向通用場景的流利度、準(zhǔn)確度等人工評價(jià)指標(biāo)。在具體應(yīng)用時(shí),應(yīng)結(jié)合具體需 求制定合適的評價(jià)流程和評價(jià)標(biāo)準(zhǔn)。此外,也應(yīng)針對系統(tǒng)性能、硬件要求等制定相應(yīng)規(guī)范。
在人機(jī)協(xié)作模式方面,同樣亟需制定相關(guān)行業(yè)標(biāo)準(zhǔn),明確人與機(jī)器的關(guān)系、在翻譯過程中發(fā)揮 的不同作用以及承擔(dān)的不同責(zé)任,以此更好促進(jìn)新技術(shù)應(yīng)用發(fā)展,推動(dòng)形成健康的行業(yè)生態(tài)。
根據(jù)《語言服務(wù)行業(yè)的機(jī)器翻譯使用情況調(diào)研問卷》收集到的反饋數(shù)據(jù),如圖 2、圖 3 所示,僅有不到 30% 的受訪企業(yè)表示會(huì)區(qū)分輕度和深度譯后編輯,并制定不同規(guī)范標(biāo)準(zhǔn)。在日常進(jìn)行“機(jī)器翻譯+譯后編輯”的人機(jī)結(jié)合服務(wù)模式時(shí),語言服務(wù)提供方會(huì)面臨客戶對譯后編輯程度的要求不明確、譯后編輯的工作量難以預(yù)估及如何定價(jià)等問題。
如果不能直接采用,機(jī)器翻譯結(jié)果需要進(jìn)行編輯,是否會(huì)針對修改程度
區(qū)分輕度譯后編輯和深度譯后編輯,并就此制定不同的規(guī)范標(biāo)準(zhǔn)?
圖2:輕度和深度譯后編輯區(qū)分
相比常規(guī)的人工翻譯任務(wù),您認(rèn)為譯后編輯任務(wù)常存在哪些問題?
圖 3:相比人工翻譯任務(wù),譯后編輯任務(wù)存在的問題
本文來源:《2023 機(jī)器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用藍(lán)皮書》