星期日, 9 5 月, 2021
23.4 C
Taiwan
更多
    Home 科技新聞 AI人工智慧 終極版 AlphaGo!DeepMind 最新人工智慧「MuZero」能下棋、玩遊戲、壓縮影片

    終極版 AlphaGo!DeepMind 最新人工智慧「MuZero」能下棋、玩遊戲、壓縮影片

    比打敗人類棋王的AlphaGo更強!無師自通的人工智慧MuZero誕生

    2016 年,DeepMind 開發的人工智慧圍棋軟體 AlphaGo 打敗了韓國棋王李世乭,成為第一個擊敗人類棋手的 AI。2018 年,它的繼任者 AlphaZero 從零開始,靠自學學會西洋棋、將棋、圍棋

    近日,DeepMind 發表超越 AlphaGo、AlphaZero 的人工智慧系統 MuZero,就算不知道規則也能精通西洋棋、圍棋、將棋,以及 57 款雅達利(Atari)遊戲,甚至還能用來壓縮影片。

     

    終極版 AlphaGo!DeepMind 最新人工智慧「MuZero」能下棋、玩遊戲、壓縮影片 

    ▲ 來源:DeepMind 官網。

     

     

    AlphaGo還需靠真人來訓練,MuZero卻能自我摸索出規則

    DeepMind 過去研發出的幾款人工智慧,都在各種棋類遊戲上展現出壓倒性的優勢。但無論是 AlphaGo、AlphaGo Zero 或 AlphaZero,都是基於已知規則,再加上人類資料訓練或是自我學習訓練而成。

    而最新登場的 MuZero 與其他的 AI「前輩」們最大的不同在於,它未事先輸入任何的已知規則,在未知的動態環境下能自行摸索出規則,並作出最佳的判斷。

    MuZero 的拿手範圍不只圍棋、西洋棋和將棋等棋類遊戲,還包含經典電腦遊戲公司雅達利(Atari)出品的 57 款遊戲,且都拿出了亮眼的表現。

    跟人類一樣的「規劃能力」 MuZero 以有限資訊做出最佳決策

    2019 年 DeepMind 就曾透露過 MuZero 的存在,但直到 2020 年底才正式於《自然》期刊發表論文,詳細介紹它的能力與原理。DeepMind 表示,MuZero 最大的突破在於表現了「對未知環境的掌握能力」。

    「我們只是告訴人工智慧:用你自己建構的認知,去了解這個世界怎麼運作。」曾任 AlphaGo 與 AlphaZero 首席研究科學家、現正領導 DeepMind 強化學習研究小組的 David Silver 表示,「只要內部的理解成功對上了某個現實事物,那我們就滿意了。」

     

    Muzero運作示意圖 

    ▲ MuZero 不需要先備知識與規則,就能精通更多的領域。來源:DeepMind 官網。

     

     

    與 AlphaGo、AlphaZero 相似,MuZero 也使用蒙地卡羅樹搜尋法(Monte Carlo tree search,MCTS),匯總神經網路的預測,並選擇適合當前環境的動作。

    MCTS 是一種「最佳優先」的樹狀搜尋演算法,與傳統方法(如廣度、深度優先)相比,最佳優先搜尋利用啟發式估算法,使其在未知的搜索空間中也可以找到有效的解決方案。簡單來說,該演算法不使用學習模型,而是找出「最好的下一步是什麼」。

    MCTS 的每個迴圈包括四個步驟:選擇(Selection)、擴充(Expansion)、仿真(Simulation)和反向傳播(Backpropagation)。通過重覆執行這些步驟逐步建構出樹狀圖。

     

    蒙地卡羅樹搜尋法示意圖 

    ▲ 蒙地卡羅樹搜尋法應用於 MuZero 的示意圖。來源:DeepMind 官網

     

     

    更簡單地來說,MuZero 會對依照三種要素建立樹狀模型:1. 當前位置、狀況的好壞;2. 最好的下一步是什麼,3. 最後會有怎樣的結果。

    DeepMind 比喻,MuZero 的運作邏輯就像是「知道雨傘能讓人不被淋濕,比對雨滴建模更有用」,它只對重要的資訊進行建模,不但讓 MuZero 不懂規則也能掌握遊戲,也讓它能保持高效率、高性能。MuZero 在棋類遊戲的性能與 AlphaZero 匹敵,在雅達利遊戲上的表現更大幅超越現有的最佳系統 DQN、R2D2 與 Agent57。

     

    雅達利示意圖 

    ▲ 雅達利曾視為家用遊戲主機的代表。來源:Lorenzo Herrera on Unsplash

     

     

    其實人類生活在真實世界時,也常要解決沒有規則可循、沒有指南可看的問題,但人類有規劃能力,能在混沌又複雜的世界制定出下一步該怎麼走。當你看到天空烏雲密布,於是決定攜帶雨具出門,這就是一種規劃能力,因為你預測到了可能會下雨。

    David Silver 說:「這是我們第一次打造這種系統,它能建立對世界如何運作的理解,並用這種理解做複雜的規劃,例如下西洋棋。」

    在下棋時,MuZero 也能以較少的運算量,達到與 AlphaZero 同樣甚至更好的結果;在需當機立斷、立即做出行動的遊戲如小精靈(Pac-Man)中,MuZero 不需要算出所有可能性才能行動,若限制它的每個行動只能選擇 6、7 個規畫模擬,依舊能取得亮眼的成績。

    除了下棋⋯⋯人工智慧 MuZero 還可壓縮影片!有望降低 YouTube 成本

    除了下棋玩遊戲之外,MuZero 也被投入商業用途。

    David Silver 表示,DeepMind 正嘗試用 MuZero 來開發新型的影片壓縮技術:「如果查看整個網路世界的資料流量,會發現影片占了很大的比例,如果可以更有效地壓縮影片的大小,可以省下大量資金、縮減經營成本。」

    「初步實驗顯示,只是單純壓縮影片能取得的收益也非常可觀,我們對此感到很興奮。」

     

    一個人在瀏覽網路影片的示意圖 

    ▲ 思科(Cisco)預估 2022 年時,影片將佔據全球 82 %的網路流量。來源:CardMapr on Unsplash

     

     

    由於同為 Alphabet 旗下的 Google 握有世界上最大的影音平台 YouTube,因此 YouTube 很有可能成為最大獲益者。然而 David Silver 拒絕透露 Google 將在何時、何地使用 MuZero的功能,只表示未來一年內將會公布更多細節。

    此外,MuZero 也計畫被用於解決化學或量子物理等問題,潛在應用領域也包括新一代虛擬助理、個人化醫療與搜索救援技術等。

    AI 人工智慧更像人了

    DeepMind 的核心理念是利用人工智慧為世界做出貢獻,MuZero 的能力與多種實際應用的可能,是 AI 走出理論的象牙塔、更貼近現實的重要里程碑。

    但突破性的進步往往也伴隨著隱憂。南安普敦大學電腦科學教授、人工智慧委員會成員 Wendy Hall 認為,DeepMind 一心追求提升 AI 性能,但對於可能造成無法預料的嚴重後果:「就像是噴射機的發明者可能沒考慮過汙染問題。人們必須要在發展與風險中取得平衡。」

    MuZero 可以歸納實際情況與當下的行動,不需要通曉所有的可能性,也能表現出色。這個特色非常人性化,也很接近人類處事的模樣。但這是會讓人工智慧 成為更出色的虛擬助理呢?還是會讓 AI 離取代人類越來越接近?只能拭目以待了。

    人工智慧「AlphaFold」解決困擾人類半世紀的「蛋白質」難題

    全世界最知名的人工智慧公司 DeepMind 除了曾經研發過擊敗人類棋王的 AlphaGo、它的進階版 AlphaZero 以及它的終極版 MuZero 之外,還曾開發出名叫「AlphaFold」的 AI,解決了困擾生物學界超過 50 年的「蛋白質折疊」難題!以往要精確得知一個蛋白質的完整結構,需要數月、數年甚至數十年的實驗研究,而這個人工智慧只要花費幾小時就能完成。詳細資訊請看本篇文章:「生物學最大謎團被人工智慧 破解!DeepMind 攻克「蛋白質折疊」奧秘

    ▲ DeepMind 的科學家與工程師的幕後故事,談論他們如何創建出 AlphaFold。

    最新文章

    熱門文章

    - Advertisment -