https://big5.sputniknews.cn/20230712/1051738151.html
中文是俄Yandex瀏覽器視頻用戶翻譯量第二大的語言
中文是俄Yandex瀏覽器視頻用戶翻譯量第二大的語言
俄羅斯衛星通訊社
俄羅斯衛星通訊社莫斯科7月12日電 俄羅斯Yandex公司新聞處對衛星通訊社表示,中文僅次於英文是俄羅斯Yandex瀏覽器視頻用戶第二大進行翻譯的語言。 2023年7月12日, 俄羅斯衛星通訊社
2023-07-12T16:56+0800
2023-07-12T16:56+0800
2023-07-12T16:56+0800
俄中關係
中文
yandex
漢語
翻譯
https://cdn.sputniknews.cn/img/102139/68/1021396837_0:0:3067:1725_1920x0_80_0_0_61e3c45cc5364bdbd5a0c8a74e089dc8.jpg
新聞處表示:“中文是俄Yandex瀏覽器視頻用戶第二大進行翻譯的語言。在翻譯數量上排名第一的是英語視頻短片。西班牙語位列第三。” 自2021年9月Yandex瀏覽器推出視頻翻譯功能以來,用戶已翻譯了2.88億次外語視頻。使用瀏覽器翻譯最多的是教育內容(如講座和教學視頻)、娛樂視頻(如訪談等)、小型設備評論、DIY類視頻。 新聞處還指出,將視頻從漢語翻譯成俄語需要動用五個神經網絡。 新聞處消息稱:“首先,算法下載音軌,正是第一種神經網絡對其進行處理,它將講話人的語音變為文本。第二種神經網絡——恢復標點符號。在這一階段,詞序‘被切割’為句子。在編‘句子’時,模型保留原有意義。第三種神經網絡確定視頻中有多少講話人,每個講話人的聲音是甚麼樣的——男性還是女性。這是為了讓每個講話人都有自己的配音。第四種神經網絡將文本翻譯成俄語。第五種神經網絡——合成講話並用不同的聲音為不同講話人配音。” 該公司稱:“漢語具有最複雜的特點,瀏覽器的神經網絡在一個月時間內就掌握了人們需要數年才能掌握的這一特點。人們之所以需用要花這麼長的時間是因為要研究決定所說話語意義的四聲。” 新聞處解釋稱:“將語音轉化為文本是翻譯的第一階段,為此,瀏覽器的神經網絡必須學習數千個漢字。每個漢字就讀作一個音節。為了讓神經網絡學會理解這些漢字,開發人員將處理漢語所需的整個詞彙表以10000個形符的形式進行了編碼。與之相比,Yandex瀏覽器先前學習翻譯的五種歐洲語言,則可容納在一個5000個形符的詞庫中。” Yandex稱:“隨著Yandex瀏覽器的畫外翻譯的出現,用戶可以獲得大量之前由於語言障礙而無法訪問的原始內容。講座和紀錄片、採訪、發射飛船、視頻博客、視頻食譜和一步步的詳細說明——所有這些現在都可以用俄語觀看。”
https://big5.sputniknews.cn/20230614/1051044067.html
https://big5.sputniknews.cn/20230303/1048394416.html
俄羅斯衛星通訊社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
2023
俄羅斯衛星通訊社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
News
cn_CN
俄羅斯衛星通訊社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
https://cdn.sputniknews.cn/img/102139/68/1021396837_191:0:2922:2048_1920x0_80_0_0_b89b06a6d95cc5014a7a45d5ef61c237.jpg俄羅斯衛星通訊社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
俄中關係, 中文, yandex, 漢語, 翻譯
中文是俄Yandex瀏覽器視頻用戶翻譯量第二大的語言
俄羅斯衛星通訊社莫斯科7月12日電 俄羅斯Yandex公司新聞處對衛星通訊社表示,中文僅次於英文是俄羅斯Yandex瀏覽器視頻用戶第二大進行翻譯的語言。
新聞處表示:“中文是俄Yandex瀏覽器視頻用戶第二大進行翻譯的語言。在翻譯數量上排名第一的是英語視頻短片。西班牙語位列第三。”
自2021年9月
Yandex瀏覽器推出視頻翻譯功能以來,用戶已翻譯了2.88億次外語視頻。使用瀏覽器翻譯最多的是教育內容(如講座和教學視頻)、娛樂視頻(如訪談等)、小型設備評論、DIY類視頻。
新聞處還指出,將視頻從漢語翻譯成俄語需要動用五個神經網絡。
新聞處消息稱:“首先,算法下載音軌,正是第一種神經網絡對其進行處理,它將講話人的語音變為文本。第二種神經網絡——恢復標點符號。在這一階段,詞序‘被切割’為句子。在編‘句子’時,模型保留原有意義。第三種神經網絡確定視頻中有多少講話人,每個講話人的聲音是甚麼樣的——男性還是女性。這是為了讓每個講話人都有自己的配音。第四種神經網絡將文本翻譯成俄語。第五種神經網絡——合成講話並用不同的聲音為不同講話人配音。”
該公司稱:“
漢語具有最複雜的特點,瀏覽器的神經網絡在一個月時間內就掌握了人們需要數年才能掌握的這一特點。人們之所以需用要花這麼長的時間是因為要研究決定所說話語意義的四聲。”
新聞處解釋稱:“將語音轉化為文本是翻譯的第一階段,為此,瀏覽器的神經網絡必須學習數千個漢字。每個漢字就讀作一個音節。為了讓神經網絡學會理解這些漢字,開發人員將處理漢語所需的整個詞彙表以10000個形符的形式進行了編碼。與之相比,Yandex瀏覽器先前學習翻譯的五種歐洲語言,則可容納在一個5000個形符的詞庫中。”
Yandex稱:“隨著Yandex瀏覽器的畫外翻譯的出現,用戶可以獲得大量之前由於語言障礙而無法訪問的原始內容。講座和紀錄片、採訪、發射飛船、視頻博客、視頻食譜和一步步的詳細說明——所有這些現在都可以用俄語觀看。”