這個項目名為“i-Sim2Real”,乒乓球機器人在模擬環境中不斷學習,並將學習成果運用於現實世界,最終可以在一個與人類的乒乓球接發回合中,接球超過三百次。谷歌之所以選擇乒乓球運動,是因為機器人可以與快節奏以及相對不可預測的人類行為進行交互,同時乒乓球的規則相對於籃球、板球等運動也較為簡單直接,在複雜性和簡單性之間取得了平衡。
在這個過程中,機器學習模型被教會在虛擬環境或模擬中做甚麼,然後再應用這些知識,目標是盡可能長時間地與人類進行接球回合而不失誤。機器人完成乒乓球動作時,既要求速度又要求精度,這對學習算法提出了很高的要求。同時,這類運動具有固定的、可預測的環境,使其成為研究人機交互和強化學習問題的理想測試平台。
“i-Sim2Real”項目不僅僅是關於乒乓球機器人,而是一種人工智能創造過程的方式。在現實世界中直接與人類玩家進行訓練既繁瑣又耗時,當需要數年的試驗和錯誤才能建立一個工作模型時,使用i-Sim2Real這種方式顯得十分有效,它在模擬環境下可以讓數年的實時訓練在幾分鐘或幾小時內完成。
除了 i-Sim2Real 這種模擬與現實交替進行的方法,谷歌研究人員也在探索只使用現實的數據學習的方法,即 GoalsEye 項目,前者可以在模擬與現實中交替學習策略,而後者從現實世界的非結構化數據中學習,結合自我訓練,對於在精確且動態的要求中學習目標條件策略是有效的。