11:32 2021年12月09日
經濟
縮短網址
作者:
0 171

中國開發了一種自然語言處理 (NLP) 算法,其性能優於谷歌公司(Google)或非盈利人工智能公司OpenAI的現有產品。北京智源人工智能研究院(BAAI)創建了「悟道2.0」(WuDao 2.0)自然語言處理預訓練模型。這個模型能夠模仿口語、識別圖像、生成信息消息,甚至是詩歌。該模型使用 1.75 萬億個參數進行訓練。

相比之下,直到最近都被認為是最通用和最先進的OpenAI公司的 GPT-3 自然語言處理模型,只使用了 1750 億個參數。每個參數都是由機器訓練模型改變和決定的。隨著模型的訓練,參數可以根據已積累的數據進行修改。模型訓練中使用的參數越多,模型最後就越先進。另一方面,參數數量的增加會使訓練過程變得更長、更昂貴,因為它要求極大的計算能力。例如,GPT-3自然語言處理模型是在 Microsoft Azure AI 超級計算機上訓練的。

GPT-3自然語言處理模型去年發佈時,尚屬首個專業寬泛的模型。自然語言處理是人工智能 (AI) 的重要應用領域,旨在發展計算機分析和自然語言合成。換句話說,主要任務是教機器理解文本或話語,並相應地正確生成文本或話語。自然語言處理的首批模型是專業性很強的:聊天機器人、語音助手等。但是在大量參數上訓練的模型可以得到更廣泛的應用。據 GPT-3自然語言處理模型的開發者稱,該模型可用於解決「任何英語問題」。為了訓練算法,收集了 570 GB 的文本數據集。GPT-3自然語言處理模型確實能夠做到了以前的人工智能所無法做到的事情。例如,在2020 年夏天,GPT-3 生成了一篇關于思維活動和新主意產生方法的文章。事實證明,這篇文章非常合乎邏輯且有趣。

今年早些時候,谷歌公司創建了自己的Google Switch Transformer預訓練模型,已經使用1.6萬億個參數進行了訓練。但中國模型仍然更先進。「悟道2.0」自然語言處理預訓練模型在1.2TB的文本數據上進行了訓練,而且既有英語,又有中文。此外,圖像也作為初始數據加載到模型中。共有4.9TB的數據用於訓練模型。

這樣,截至目前,中國「悟道2.0」自然語言處理預訓練模型大大優於美國模型的研發產品,北京師範大學-香港浸會大學聯合國際學院教授許粲昊告訴俄羅斯衛星通訊社:

「我們可以看到,‘悟道’模型的複雜程度基本可以達到美國谷歌模型的10倍左右,在這方面中國毫無疑問是暫時處於世界領先地位的。包括在圖像識別領域,中國也在一些國際大賽上包攬了諸多獎項,名列前茅。另外,在人工智能領域最關鍵的是中國擁有龐大的數據量,在用於訓練模型的基本效果方面成效顯著」。

中國制定了到2030年在人工智能領域取得領先地位的雄心勃勃的目標。在2017年發佈的《下一代人工智能發展規劃》說,到2030年,中國人工智能產業至少將積累1500億美元。谷歌大中華區前總裁、風險投資人李開復曾多次承認,由於人工智能尤其是機器訓練的現代發展原則是基於數據組的,中國具有重要的競爭優勢。中國近15億人口為數據組的積累和處理奠定了基礎。廉價勞動力豐沛則為中國提供了另一個可能性:成為世界數據處理工廠。問題在於,零散數據本身對機器訓練沒有多大價值。它們需要先被做標記。例如,從可用的圖像組中挑出帶有貓的圖片並相應地為它們打上記號。實際上,在20年前農民工在縫紉機上縫製衣服的同一棟廠房裡,現在標記工正在工作。他們每天坐在電腦前12個小時,標記大量數據組,供人工智能系統後來在數據組上訓練。這樣,像在傳統工業中一樣,中國正在努力接通人工智能發展的供應鏈。

但存在一定的困難。許粲昊說,在人工智能的一些基礎領域,中國仍像過去一樣遠遠落後於其主要競爭對手美國。

「以前在人工智能領域我們有兩個最大的短板:一是硬件設施。因為人工智能的訓練和推理需要非常強大的硬件支持,包括在半導體硬件設計製造方面,我國也仍然有很長的路要走;二是基礎理論。比如現在人工智能的模型算法已經足夠成熟,也做得非常好,但是能否取得下一個突破?基礎理論突破又在哪裡?這些都還是大家仍然在摸索的內容」。

目前,美國在設備生產(芯片、微電路)和軟件製造方面都處於領先地位。比如,Tensorflow、Pytourch等全球最大的開源機器學習平台都是由美國公司創建的。在其他相關領域,歐洲和日本公司保持領先地位。例如,在硅片上雕刻集成電路所必需的深紫外(EUV)光刻先進設備是由荷蘭光刻機設備供應商阿斯麥(ASML Holding N.V.)以及日本佳能(Canon)公司和尼康(Nikon)公司製造的。美國意識到可能失去科技領先地位,開始為中國製造障礙。例如,他們限制向中國供應芯片、設備和技術。同時,隨著算法和模型將向所謂的普遍人工智能發展,數據將逐漸失去其在人工智能發展中的重要性。

「目前來看,數據量仍然是非常關鍵的問題。因為人類所有的知識都是日積月累所得,如果沒有足夠的數據支撐,AI是無法進行下一步的。不過當擁有了一定的數據量後,AI是否能夠自己生成一些新的東西,做一些自我推理,或者自己學習新知識,我想也是一種可能性。只是從中短期來看,數據量具有必要性。」

© AP Photo / Mark Schiefelbein
事實上,這個過程已經開始了。「悟道2.0」自然語言處理模型確實是在龐大的數據組上訓練的。但這樣做是為了將來重新訓練模型時不再需要大量新數據。科學家們正努力使人工智能越來越像人類智能,也就是說,它可以根據已經積累的數據組學習一些新東西,這些數據並不與當前任務100%相關,但可以推論出新問題的解決方案。從這個意義上說,發展基礎能力以保持未來競爭力對中國來說的確是重要的。實際上,2017年出台《人工智能發展規劃》恰好在這個方向上划定了重點。

與美國的貿易和技術戰再次證明瞭北京所選擇路線的正確性。明顯,依賴全球供應鏈實在是不安全的。在政治趨勢的影響下,昨天的合作夥伴可能會突然變成對手,停止任何合作。中國的「十四五」規劃恰好規定對基礎科學進行大規模的投資。

實際上,美國也明白這一點,並努力不讓中國繼續前進。過去,私有公司和投資是進步的主要推動力,那麼現在政府資助也參與這件事情。美國總統喬·拜登已向國會提議把聯邦研發總支出增加135億美元。此外,根據《無盡前沿法案》(Endless Frontier Act) 改革國家科學基金會(NSF)的計劃,美國準備在2025年之前再投入1000億美元用於發展基礎技術以對抗中國。

另一個問題是,中國為發展科技不吝資金。為此目的計劃在2025年前至少花費1.4萬億美元。中美之間的人工智能競賽很可能會採用多種方法。現任美國人工智能安全委員會主席、谷歌及其母公司Alphabet的前首席執行官埃里克·施密特(Eric Emerson Schmidt)表示,為阻止中國科技能力的快速發展,並使美國在芯片製造領域至少領先中國兩代,有必要繼續限制對中國的芯片和其它高科技產品的供應。此外,需要放寬移民法以吸引來自世界各地的最優秀人才。

人工智能安全委員會(NCSAI)向總統和國會提出的建議中甚至提出「加速」中國的「人才流失」過程,為中國專家創造有吸引力的條件。實際上,目前尚不清楚這將如何付諸實施。至少在特朗普時代,越來越多的中國專家無法忍受簽證、行政和其它限制,越來越多地離開美國返回祖國。

關鍵詞
中國, 美國
社區公約討論