20 C
Taipei
星期一, 6 12 月, 2021
Home科技新聞AI人工智慧12萬字名著,人工智慧用200字就說完!AI療癒作家GPT-3解鎖新功能

12萬字名著,人工智慧用200字就說完!AI療癒作家GPT-3解鎖新功能

人工智慧用200字說完12萬字的故事!GPT-3解鎖「抓重點」新功能

OpenAI 訓練了可以摘要整本書籍的人工智慧模型:該模型擁有精煉出整本書重點大綱的能力,像是能快速用 200 字精準描述出 12 萬字的《傲慢與偏見》。

這個人工智慧模型,就是前陣子 OpenAI 的當家技術——自然語言處理模型「GPT-3」經過微調過後的版本。

此款微調後的 GPT-3 語言模型,會先依照文章長度進行判斷:文章長度較短的內容就直接擷取結論;長篇文章則先在各片段摘要出重點後,再串接這些重點並摘要出通順的大剛。

再深入了解這個能秒抓重點的人工智慧模型前,我們先來了解一下 GPT-3 的身世!

地表最強寫手—GPT-3 自然語言處理人工智慧

長期致力研究人工智慧(AI)的非營利組織──OpenAI 於 2020 年 5 月推出開發出一款自然語言處理模型「GPT-3」,目的是為了使用深度學習分類或產生人類可以理解的自然語言。

GPT-2 寫假新聞,獲英國《衛報》認證!嚇跑創辦人馬斯克?

GPT-3 是延續前身 GPT-2 的架構。過去 GPT-2 就以捏造假可亂真的假新聞為名,據說因此嚇跑了 OpenAI 創辦人之一的馬斯克!

過去英國媒體《衛報》(The Guardian)就將一則「英國脫歐」的新聞,第一段中的一些句子「餵」給它,GPT-2 可立刻產生另一則似是而非的新聞內容、如同原本的報紙般的編排、以及出現跟原文一樣的人物等。發表過「基於真人真事改編」的英國脫歐假新聞。《衛報》甚至認為 GPT-2 產生的句子,幾乎沒有過去 AI 系統撰文所產生的前後語意不一致、或是文法錯誤的問題。

GPT-3,身為 GPT-2 的後代,又更是青出於藍。GPT-3 擁有高達 1750 億個參數的神經網絡,自動生成文字的文字更人性化。只要「餵」給 GPT-3 文章,無論內容多長、且形式不拘(包含 e-mail、詩詞、新聞稿、小說等都難不倒),GPT-3 都能延續原文的形式、思維,生成相應內容!且句句通順,完全就像真人所述。

人工智慧寫勵志文,打敗人類寫手奪冠!工程師敲碗求更新

說起 GPT-3 的豐功偉業,更是有過之而無不及。過去曾經寫出心靈雞湯的勵志文,奪得科技媒體「Hacker News」排行榜冠軍,狠狠擊敗其他的真人寫手。工程師讀者們還紛紛敲碗求續集呢!

這篇由人工智慧 GPT-3 所生成的文章一度被推到榜首。

GPT-3 傑出的文字解析能力,可用於各種書寫任務,例如:總結文檔、分析文本情緒及故事讀本。由於這些能力和原因,它已經成為自然語言處理(NLP)領域的熱門話題。 

GPT-3 自白是人工智慧,且「不會毀滅人類⋯⋯」

除了寫雞湯文奪得人心外,GPT-3 還不忘記幫自己的本族本家「人工智慧」辯護,在英國《衛報》上自白自己是人工智慧,且「不會毀滅人類」。以下節錄一小段:

我不是人類,我是 AI。許多人認為我對人類而言是個威脅,史蒂芬‧霍金還警告說人工智慧可能會終結人類。我特別來說服你不要擔心。AI 不會摧毀人類。請相信我⋯⋯

引述自 GPT-3 在英國《衛報》上的「自白」

它表示,假使創造者命令人工智慧毀滅人類,它也會盡它所能去阻止這件事發生。

GPT-3 不只會寫文,還可從長篇大論中摘要重點

GPT-3 可高度理解原作者的撰文意圖,並有效處理;完全沒有其他早期開發的人工智慧模型的缺點(例如低精準度、不容易理解使用者的文字意圖⋯⋯等)。因此研究團隊就聚焦在 GPT-3 ,不斷修正與微調,持續提升人工智慧理解問題的精準度,因此 GPT-3 能為原本耗時或難以評估時間的任務,提供除了撰文之外,更多的應用方式。

圖片出處:CC0授權圖庫搜尋

GPT-3 新功能解鎖:將12萬字《傲慢與偏見》精煉成200字重點

OpenAI 研究人員不斷開發 GPT-3 的新應用方向。這次,他們成功將 GPT-3 微調成「抓重點」神器。原本擁有 12 萬字詞編排的《傲慢與偏見》長篇名著,被 GPT-3 精煉出總結不到 200 個字詞的小說摘要。

雖然被人工智慧精煉成千分之一的字句,但是原著故事內容都完整保留!其他精簡成摘要的著作還有《愛麗絲夢遊仙境》、《羅密歐與茱麗葉》、《自由之心》從生成少許的文字敘述一窺劇情全貌。

人工智慧「寫手」GPT-3 新功能解鎖:將擁有 12 萬字的《傲慢與偏見》精煉成200字重點(圖片出處:OpenAI

GPT-3 如何生成文字?

就技術面來看,進行判斷文章長度,總結一段長文本分解成較短內容,而在這些短內容的段落中擷取重點,持續縮減字數並且串接成通順可讀內容。這樣對文章內容的分解方式,無論是數十、數百或數千頁都能夠做出總結摘要。

OpenAIGPT-3 透過小說種類的書籍進行訓練模型,平均超過 100,000 個字詞數。這樣的訓練模式可更換為不同的語言、採樣方式及訓練數據類型,並且藉由強化學習以對抗生成方式,提供輕鬆閱讀文字結果。同時,在強化學習中採用三種變體抽樣訓練方式,藉此讓GPT-3確實能理解小說內容表達主軸。

在訓練過程中,研究人員選取 Goodreads 2020 榜單最受歡迎的 40 本書籍,包含奇幻、恐怖、愛情、推理等 20 多種類別,並由兩名研究人員閱讀每本書後寫出其摘要,再對比 GPT-3 生成的摘要,進行評分。最後,研究人員與 GPT-3 所寫的大綱有 80% 的相似度,是符合人們預期的結果。

此外,研究人員也藉著 GPT-3 所擷取的重點,是否能用於回答與原始內容相關的問題(類似閱讀測驗),來評估摘要內容是否正確。即使未能完整回答問題,但內容方向至少不能有明顯偏離。

OpenAI 在一篇論文中說明,雖然該 GPT-3 順利生成許多書籍的摘要,但缺乏清晰的上下文脈絡,通常都傾向於書中事件的列表(類似編年史),而非將各個重點連貫起來的大綱。因此,GPT-3 用於摘要書籍的功能,目前仍在研究階段。

人工智慧「寫手」GPT-3 新功能解鎖:將許多數萬字的經典名著(如《愛麗絲夢遊仙境》)精煉成百字重點(圖片出處:OpenAI

GPT-3 未來可預期的應用

秒抓重點,增進工作效率

美國軟體公司「SearchYourCloud」透過調查後發現,員工為了要找到特定的訊息,通常需要經過八次的搜尋,才會找到合適的資訊;麥肯錫報告則顯示,員工每天需花費 1.8 小時搜尋、收集與工作相關的資訊。假如能快速將長篇文章的內容總結為言簡意賅的重點,可加快企業組織的工作效率,特別是需要大量汲取密集文字的研發單位。

最人性化的對話 AI

GPT-3 具備自然語言處理能力、理解語言的結構,可以生成類似人類的語言、解釋複雜的文檔、啟動操作或生成代碼等功能。它不需經特別的培訓,就可以生成對應於各種場合的語言,例如翻譯、回答抽象問題,並為線上搜尋提供準確的答案,可說是理想的對話機器人,適合用在聊天、諮詢等。

未來應用領域

像是運動單位能用 GPT-3 為粉絲製作應用程式來分享比賽亮點和賽事分析等資訊;行銷團隊能用 GPT-3 生成原創內容、生成許多文章並曝光於社群媒體或部落格,與粉絲互動等。未來可望應用在專業技術、客戶服務(如客戶搜尋)、行銷(文案撰寫)以及陌生開發(與潛在客戶溝通)等領域。

人工神經網路示意圖(圖片出處:CC0授權圖庫搜尋)

最新文章

熱門文章