22.1 C
Taipei
星期一, 31 10 月, 2022
Home科技新聞AI人工智慧人工智慧 Suphx 打敗人類雀聖!微軟:研發麻將 AI 比圍棋 AI 複雜

人工智慧 Suphx 打敗人類雀聖!微軟:研發麻將 AI 比圍棋 AI 複雜

前陣子,人工智慧又在一場比賽中打敗人類:微軟 Suphx 突破日本麻將最高紀錄,打敗人類頂尖玩家。其實兩年前, Google 開發的圍棋 AI「AlphaGo」也曾經以近乎完美姿態,打敗人類選手李世乭和柯潔。

根據微軟所述:研發麻將 AI 的技術門檻可說是比研發圍棋、德州撲克等棋牌、博弈類的遊戲難多了!是真的嗎?以下這篇取材自微軟亞洲研究院的新聞稿,解釋為何同樣是人工智慧,麻將 AI 的研發技術會比 Alpha Go 等棋類 AI 還複雜!

微軟:麻將變動度比圍棋、德州撲克還高

微軟的新聞稿上提到了開發麻將 AI「Sphix」難度與象棋、圍棋、德州撲克等棋牌類遊戲相比,麻將具有更復雜的隱藏信息和更高的難度。總言而之,麻將 AI 的研發面臨的挑戰如以下:

巨大的狀態空間:

與只有 52 張牌的德州撲克相比,136 張麻將牌的排列組合擁有更多的可能性。同時,麻將中同一個玩家在兩次出牌之間,夾雜了其他 3 個玩家的出牌和自己摸的底牌,可能出現的不同局面數目非常巨大。值得提出的是,在麻將中,4 位玩家的出牌順序是不固定的,任意一位玩家的「吃」、「碰」、「槓」都可能改變出牌順序,導致遊戲順序的不規則和莫大的變化。這些變動使麻將很難直接利用 AlphaGo 等棋盤遊戲人工智慧常用的蒙特卡洛樹搜索算法。

非完美資訊遊戲:

賽局理論中,資訊集合是指對於特定的參與者,建立基於其所觀察到的所有賽局中可能發生的行動的集合。如果賽局是完美資訊的,每個資訊集合只能有一個參與者,並顯示賽局所處的階段。否則,有的參與者可能就不知道賽局的狀態,以及自己周圍的形勢。

象棋和圍棋屬於完美資訊遊戲,玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏資訊。具體而言,麻將中每個玩家可以有 13 張手牌,另外還有 84 張底牌。對於一個玩家而言,他只知道自己手裏的 13 張牌和之前已經打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌,所以最多可以有超過 120 張未知的牌。這麽多的未知資訊,使得麻將的難度非常高。一方面,由於隨機性太大,玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌,也無法避免不確定性對於遊戲走向的影響。這將對人工智慧模型的訓練帶來很大挑戰:模型很難發現已知牌面信息和最優打法之間的邏輯鏈路。另一方面,豐富的隱藏信息導致遊戲樹的寬度非常大,對樹搜索算法的可行性提出了進一步的挑戰。

復雜的獎勵機制:

日本麻將的規則是「無役不能和牌」,多樣又特殊的牌面,構成了復雜的「役種」和番數計算規則。一輪遊戲共包含 8 局,單局得分與役種和番數相關,最後根據 8 局的得分總和進行排名,來形成最終影響段位的點數獎懲。因此有時麻將高手會策略性輸牌,例如,在第 8 輪時如果 A 玩家已經大比分領先第二名,他可能會故意放炮給排名第四的玩家,來防止總分被排名第二的玩家反超,保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將 AI 策略帶來了額外的挑戰:人工智慧需要審時度勢,把握進攻與防守的時機。

「面對麻將遊戲的巨大挑戰,人工智慧僅靠強大的計算能力,無法從根本上解決問題,而需要更強的直覺、預測、推理和模糊決策能力」微軟亞洲研究院副院長、機器學習領域負責人劉鐵巖博士表示。

為了讓 Suphx 高效地學習麻將的複雜狀態和策略,微軟亞洲研究院針對麻將的特點與困難度,嘗試了一系列的「基於強化學習」的新式演算法,希望通過技術面的創新,讓 Suphx 具備強大有效的「狀態表達」和「策略學習」能力,同時具有「大局意識」,能從遊戲的全局角度做出策略性的判斷,確保統計意義上總分的領先地位。

「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸

全新機制應對「巨大的狀態空間」

比如說,為了應對「巨大的狀態空間」,研究團隊引入了全新的機制:對探索過程的多樣性,進行動態調控,讓 Suphx 可以比傳統算法,更加充分地試探牌局狀態的多種可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓Suphx 在推理階段根據本輪的牌局,來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,從而更好地根據本輪牌局的演進做出自適應的決策。

「先知教練技術」應對「非完美資訊」

其次,針對「非完美訊息」博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏訊息,來引導人工智慧模型的訓練方向,使其學習路徑更加清晰、更加接近完美資訊意義下的最佳路徑,從而倒逼人工智慧模型更加深入地理解可見信息,從中找到有效的決策依據。

「全盤預測技術」理解「復雜的獎勵機制」

另外,對於麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。

得益於以上新技術和其他方面的創新,自今年 3 月進入天鳳平台以來,Suphx 在與人類玩家的對局中,學得非常快。目前,在平衡攻擊和防禦方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。

Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、反思和重複回饋過程,從而實現進一步的改進和提升。

劉鐵岩表示:「 雖然 Suphx 根據麻將的獨特挑戰,進行了針對性的設計,也取得了不錯的戰績,但我們的創新從未停止。我們期待在不久的將來發明出更新穎、更強大的人工智慧技術,使 Suphx 的能力有更大幅度的提升。縱觀歷史、遊戲 AI 的進化始終與人工智慧研究進展相生相伴,很多關於人工智能的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展既有的人工智慧技術的極限,不斷推動人工智慧領域的進步。」

最新文章

熱門文章