在很多游戲和圍棋比賽中,人工智能(AI)都展現(xiàn)出了 “超人” 能力,現(xiàn)在,它又開(kāi)始沖擊辯論賽了。
自 AI 概念誕生以來(lái),如何讓計(jì)算機(jī)對(duì)自然語(yǔ)言的理解和處理能力接近人類,一直是科學(xué)家們的終極愿景。經(jīng)過(guò)數(shù)十年的發(fā)展,目前業(yè)界已經(jīng)開(kāi)發(fā)出能夠執(zhí)行語(yǔ)言理解任務(wù)的 AI 模型,對(duì)于常規(guī)任務(wù)和特定語(yǔ)言現(xiàn)象,例如預(yù)測(cè)某個(gè)句子的情感,當(dāng)前最先進(jìn)的 AI 系統(tǒng)通常能給出一個(gè)不錯(cuò)的結(jié)果,再搭配上語(yǔ)音相關(guān)技術(shù),進(jìn)行簡(jiǎn)單的人機(jī)對(duì)話交互也不再稀奇。
然而,在更復(fù)雜的任務(wù)中,例如自動(dòng)翻譯、自動(dòng)摘要和多輪隨機(jī)對(duì)話考驗(yàn)下,AI 系統(tǒng)仍然不能很好地滿足人類需要,而比這些單一任務(wù)更具綜合性的考驗(yàn)是:辯論。
那么,AI 有能力和人進(jìn)行主題辯論嗎?
辯論代表了人類大腦的一種主要認(rèn)知活動(dòng),需要同時(shí)應(yīng)用廣泛的語(yǔ)言理解和語(yǔ)言生成能力,一個(gè)自主的辯論系統(tǒng)超出了以往語(yǔ)言研究的范圍。
不過(guò),來(lái)自 IBM 的 AI 研究團(tuán)隊(duì)報(bào)告了一項(xiàng)最新的研究進(jìn)展:Project Debater(意為 “辯手項(xiàng)目”),經(jīng)評(píng)估,該系統(tǒng)已可以與人類專家選手進(jìn)行體面且有意義的現(xiàn)場(chǎng)辯論,它能通過(guò)儲(chǔ)存了 4 億篇新聞報(bào)道和維基百科頁(yè)面的知識(shí)庫(kù),自行組織開(kāi)場(chǎng)白和反駁論點(diǎn)。
圖|Project Debater 與人類選手辯論(來(lái)源:IBM)
相關(guān)論文以 “An autonomous debating system”(一個(gè)自主辯論系統(tǒng))為題,于 3 月 18 日以封面文章的形式發(fā)表在頂級(jí)科學(xué)期刊《自然》(Nature)上。
據(jù)了解,Project Debater 最早于 2011 年被提出,堪稱 “十年磨一劍”,研究人員的目標(biāo)是讓 AI 與人類進(jìn)行現(xiàn)場(chǎng)辯論時(shí)應(yīng)對(duì)自如。另外,他們還強(qiáng)調(diào)了 AI 與人類進(jìn)行辯論和在游戲競(jìng)賽中挑戰(zhàn)人類之間有著根本區(qū)別,這有助于讓 AI 走出 “舒適區(qū)”,因?yàn)樵谵q論領(lǐng)域,人類仍然占優(yōu)勢(shì),AI 需要新的范式才能取得實(shí)質(zhì)性進(jìn)展。
1
初次亮相就對(duì)陣冠軍選手
研究人員定義了一種辯論形式,它是學(xué)術(shù)競(jìng)爭(zhēng)性辯論中常用的辯論風(fēng)格簡(jiǎn)化版,即一旦被稱為 “辯論動(dòng)議” 的主題宣布,Project Debater 和人類選手都各有 15 分鐘的準(zhǔn)備時(shí)間。
準(zhǔn)備就緒后,雙方就開(kāi)始輪流發(fā)言,開(kāi)場(chǎng)發(fā)言和第二次發(fā)言各為 4 分鐘,閉幕發(fā)言各有 2 分鐘,演講通常由支持動(dòng)議立場(chǎng)的論據(jù)和反駁該立場(chǎng)的觀點(diǎn)論據(jù)組成,辯論前后觀眾們會(huì)對(duì)辯論動(dòng)議進(jìn)行投票,能爭(zhēng)取更多選票的選手被宣布為勝利者。
圖|辯論流程與格式的詳細(xì)情況(來(lái)源:Nature)
Project Debater 的一次正式亮相是在 2019 年 2 月 11 日,它與一位廣受認(rèn)可的辯論冠軍 Harish Natarajan 進(jìn)行了一次現(xiàn)場(chǎng)辯論較量,Harish Natarajan 是 2016 年世界大學(xué)辯論錦標(biāo)賽的總決賽選手,也是 2012 年歐洲大學(xué)辯論錦標(biāo)賽的冠軍,此次辯論也是 AI 在公眾面前的首次現(xiàn)場(chǎng)辯論。
雖然最終觀眾的投票結(jié)果仍是人類勝利,但 Project Debater 的表現(xiàn)給觀眾留下了深刻的印象,盡管它的修辭技巧仍未達(dá)到專業(yè)選手的水平,但它已能夠指出辯論中的相關(guān)要點(diǎn)。
圖|Project Debater 與 Harish Natarajan 的現(xiàn)場(chǎng)辯論(來(lái)源:IBM)
而這次研究論文的重點(diǎn),則是描述 Project Debater 系統(tǒng)及其在廣泛辯題中的結(jié)果,而不是這個(gè)特定的事件。
考慮到參與辯論所需的任務(wù)的多樣性,以端到端系統(tǒng)的形式設(shè)想一個(gè)整體解決方案,例如一個(gè)單一的神經(jīng)模型,幾乎是不可行的。相反,IBM 研究團(tuán)隊(duì)的做法是將問(wèn)題分解為并行執(zhí)行的模塊化具體任務(wù)。
有趣的是,其中一些相關(guān)研究受到了科學(xué)界的高度關(guān)注。例如,上下文相關(guān)的語(yǔ)境檢測(cè)和上下文相關(guān)的證據(jù)檢測(cè)任務(wù)是在該項(xiàng)目背景下提出和制定的,現(xiàn)已成為計(jì)算論證界的一個(gè)活躍研究領(lǐng)域。
2
AI 辯手是怎樣練成的?
整體來(lái)說(shuō),Project Debater 由四個(gè)主要模塊組成:論點(diǎn)挖掘、論據(jù)知識(shí)庫(kù)(AKB)、論點(diǎn)反駁和論證構(gòu)建。
其中,論點(diǎn)挖掘主要分兩個(gè)階段進(jìn)行。在離線階段,基于約有 4 億篇報(bào)道文章的大型語(yǔ)料庫(kù)(來(lái)自 LexisNexis2011-2018 語(yǔ)料庫(kù)),把文章分成句子,并用其中的單詞、維基百科的概念、它們提到的實(shí)體以及預(yù)定義的詞匯來(lái)索引這些句子。到了在線階段,一旦辯論動(dòng)議被提出,系統(tǒng)就依賴此索引進(jìn)行全語(yǔ)料庫(kù)的句子級(jí)參數(shù)挖掘、檢索與動(dòng)議相關(guān)的立場(chǎng)聲明和證據(jù)。
具體而言,首先,使用定制查詢檢索包含此類論據(jù)的高傾向性句子;接下來(lái),使用神經(jīng)模型根據(jù)這些句子代表相關(guān)論據(jù)的概率對(duì)它們進(jìn)行排序;最后,結(jié)合神經(jīng)網(wǎng)絡(luò)和基于知識(shí)的方法對(duì)每個(gè)接近動(dòng)議的論點(diǎn)立場(chǎng)進(jìn)行分類。
圖|Project Debater 辯論系統(tǒng)架構(gòu)(來(lái)源:Nature)
在此過(guò)程中,系統(tǒng)還使用主題擴(kuò)展組件來(lái)更好地包含相關(guān)參數(shù)的范圍。也就是說(shuō),如果主題擴(kuò)展組件成功識(shí)別出與辯論相關(guān)的其他概念,它會(huì)請(qǐng)求參數(shù)挖掘模塊也搜索描述這些概念的參數(shù)。此外,論點(diǎn)挖掘模塊還搜索支持另一方的論據(jù),目的是準(zhǔn)備一組對(duì)手可能使用的論據(jù)和可能作為回應(yīng)的證據(jù),這一套操作稍后由反駁模塊使用。
AKB 旨在捕捉不同辯論之間的共性。AKB 中的文本包含原則性的論點(diǎn)、反證論點(diǎn)和可能與廣泛主題相關(guān)的常見(jiàn)例子,這些文本是手動(dòng)編寫或自動(dòng)提取然后手動(dòng)編輯,并分組成專題類。
給定一個(gè)新的辯題,系統(tǒng)能使用基于特征的分類器來(lái)確定哪些類與該辯題相關(guān)。然后,所有與匹配類相關(guān)聯(lián)的文本都可以潛在地用于語(yǔ)音中,系統(tǒng)根據(jù)它們與辯題的語(yǔ)義關(guān)聯(lián)性來(lái)選擇那些它預(yù)測(cè)最相關(guān)的文本,這些文本不僅包括論點(diǎn),還包括鼓舞人心的引語(yǔ)、豐富多彩的類比、辯論的適當(dāng)框架等等。
在論點(diǎn)反駁階段,IBM 的 Watson(沃森)將使用其針對(duì)定制語(yǔ)言和定制聲學(xué)模型的自動(dòng)語(yǔ)音到文本服務(wù),將人類對(duì)手的語(yǔ)音轉(zhuǎn)換為文本,神經(jīng)模型會(huì)將獲得的文本分割成句子,并添加雙關(guān)語(yǔ)。
下一步,專用組件會(huì)確定哪些提前預(yù)測(cè)的論據(jù)確實(shí)由對(duì)方陳述,并針對(duì)性提出反駁。除了基于主張的反駁論據(jù)之外,AKB 的關(guān)鍵情感術(shù)語(yǔ)也被識(shí)別出來(lái),并作為簡(jiǎn)單反駁形式的索引。
最后的論證構(gòu)建模塊,則是一個(gè)集成聚類分析的基于規(guī)則的系統(tǒng)。在刪除了預(yù)先指定為冗余的參數(shù)之后,剩余的參數(shù)將根據(jù)語(yǔ)義相似性進(jìn)行聚類,對(duì)于每個(gè)集群,都會(huì)確定一個(gè)主題,類似于一個(gè)維基百科的概念。
系統(tǒng)會(huì)選擇一組高質(zhì)量的論點(diǎn)集群。接下來(lái),使用各種文本規(guī)范化和重新措辭技術(shù)來(lái)提高流利性,最后使用預(yù)定義的模板逐段生成每個(gè)語(yǔ)音,完成與對(duì)手的辯論交流。
3
AI 的辯論能力如何?
與玩游戲、下圍棋等競(jìng)賽不同,辯論往往摻雜著更多主觀因素,因此客觀評(píng)估一個(gè) AI 辯論系統(tǒng)的性能是項(xiàng)挑戰(zhàn),因?yàn)闆](méi)有一個(gè)統(tǒng)一標(biāo)準(zhǔn)來(lái)決定辯論勝利者。
在公開(kāi)辯論中,辯論前后觀眾的投票可以決定 “獲勝” 的一方,但這種方法存在固有的局限性。
首先,如果辯論前的觀眾投票高度不平衡,那其中一方的勝辯壓力必定就很高;其次,投票涉及個(gè)人意見(jiàn),并可能受到各種難以量化和控制的因素影響;另外,創(chuàng)造一個(gè)有大量公正觀眾的現(xiàn)場(chǎng)辯論是復(fù)雜的,而制作多場(chǎng)這樣的辯論更是如此。
盡管如此,研究人員為了評(píng)估 Project Debater 系統(tǒng)的總體性能,將其與各種基線進(jìn)行比較,并跟蹤其隨時(shí)間的進(jìn)展情況,由于 Project Debater 之外,研究人員并沒(méi)有發(fā)現(xiàn)其他自動(dòng)方法可以參加一個(gè)完整的辯論活動(dòng),因此,對(duì)比的范圍也是在有限任務(wù)下進(jìn)行,比如生成一個(gè)辯論開(kāi)場(chǎng)白,這顯然是任何辯論系統(tǒng)應(yīng)該具備的第一步。
圖|Project Debater 系統(tǒng)對(duì)比評(píng)估(來(lái)源:Nature)
研究人員選擇了 78 個(gè)動(dòng)議來(lái)評(píng)估當(dāng)一個(gè)新的辯題出現(xiàn)時(shí),各種 AI 系統(tǒng)以及人類專家的表現(xiàn),每一次演講都由 15 位評(píng)審員進(jìn)行了回顧評(píng)分,以判斷此演講是否能作為支持辯題立場(chǎng)的良好開(kāi)場(chǎng)白,其中 5 分表示高度一致。Project Debate 的評(píng)估結(jié)果明顯優(yōu)于其他系統(tǒng),并且非常接近人類專家的得分。
在開(kāi)場(chǎng)白之后的評(píng)估中,研究人員使用了相同的 78 個(gè)動(dòng)議,再次要求被選中的一組人群想象自己是辯論聽(tīng)眾,在這種情況下,讓他們閱讀三篇辯論演講,但不告知演講的來(lái)歷。結(jié)果顯示,所有辯題 Project Debater 的平均得分均高于中立 3 分,78 個(gè)動(dòng)議中有 50 次表現(xiàn)的平均得分≥4 分,這表明在至少 64% 的動(dòng)議中,群眾評(píng)論員認(rèn)為 Project Debater 在辯論中表現(xiàn) “良好”。
不過(guò),雖然 Project Debater 得分顯著高于所有對(duì)比基線和對(duì)照組的得分,但距離人類專家的得分還有明顯差距。
圖|Project Debater 輸出的辯論內(nèi)容類型分析(來(lái)源:Nature)
值得注意的是,研究人員還將 Project Debater 系統(tǒng)的內(nèi)容組成與人類預(yù)先準(zhǔn)備的信息相結(jié)合,圍繞關(guān)鍵主題進(jìn)行分組,以提供關(guān)于廣泛主題的知識(shí)、論據(jù)和反駁。所以,知識(shí)庫(kù)中還補(bǔ)充了所謂的 “罐裝” 文本 —— 由人類預(yù)先編寫的句子片段 —— 可用于在辯論中介紹和組織文稿。
在進(jìn)一步評(píng)估中,研究人員檢查了所有 78 個(gè)動(dòng)議辯論演講中的內(nèi)容類型相對(duì)分布。結(jié)果是,Project Debater 只有不到 18% 的內(nèi)容是來(lái)自傳統(tǒng)的 “罐裝” 文本,而剩下的內(nèi)容是由更高級(jí)的 AI 底層系統(tǒng)組件提供的。
在 Nature 評(píng)論文章中,來(lái)自英國(guó)鄧迪大學(xué)(University of Dundee)辯論技術(shù)中心的 Chris Reed 撰文表示,這一發(fā)現(xiàn)暗示了一個(gè)未來(lái),即 AI 可以幫助人類制定和理解復(fù)雜的論點(diǎn)。
在 AI 領(lǐng)域,開(kāi)發(fā)能夠識(shí)別人類自然語(yǔ)言中的論點(diǎn)的 AI 系統(tǒng)是一項(xiàng)最嚴(yán)峻的挑戰(zhàn)。Project Debater 展示了該領(lǐng)域的研究已經(jīng)取得了很大的進(jìn)步,并強(qiáng)調(diào)了在開(kāi)發(fā)能夠識(shí)別、生成和辯論觀點(diǎn)的技術(shù)時(shí),將不同 AI 組件(每個(gè)組件處理特定任務(wù))集成在一起工作的重要性,無(wú)疑這是一項(xiàng)巨大的工程壯舉。
同時(shí),他也指出了一些問(wèn)題,Project Debater 系統(tǒng)最薄弱的方面或許就是,它努力在模仿人類辯手在思維和表達(dá)方面的連貫性和流暢性 —— 這個(gè)問(wèn)題與論據(jù)選擇、抽象表達(dá)和編排論點(diǎn)的最高層次有關(guān),且這種局限性并不是 AI 系統(tǒng)所獨(dú)有的,人類初級(jí)選手同樣存在。
舌戰(zhàn)群儒般的高超辯論技巧是門藝術(shù),而構(gòu)成好的論據(jù)組合的模式也是極盡不同的,因此,僅僅通過(guò)詢問(wèn)人類觀眾是否認(rèn)為這是 “一場(chǎng)體面的辯論表演” 來(lái)評(píng)價(jià) Project Debater 的性能也是另一種局限。在現(xiàn)實(shí)世界中,沒(méi)有明確的界限來(lái)界定論點(diǎn),發(fā)生在辯論之外的討論也不是離散的,而是與交叉引用、類比、例證和概括的網(wǎng)絡(luò)互連。
圖|Project Debater 工作流程示意圖
4
探索舒適區(qū)之外的能力
在論文討論部分,研究人員表示,AI 和自然語(yǔ)言處理(NLP)的研究通常集中在所謂的 “狹義 AI” 上,由狹義定義的任務(wù),通常具有明確的評(píng)估指標(biāo),并適合于端到端的解決方案,例如那些源于深度學(xué)習(xí)技術(shù)研究的快速落地的解決方案。
相反,“復(fù)合 AI” 任務(wù),即與更廣泛的人類認(rèn)知活動(dòng)相關(guān)的任務(wù),需要同時(shí)應(yīng)用多種技能,AI 系統(tǒng)處理的效率較低。
自 20 世紀(jì) 50 年代以來(lái),AI 技術(shù)突飛猛進(jìn),能執(zhí)行日益復(fù)雜的任務(wù),在游戲或棋盤競(jìng)賽中的明確規(guī)則下,是 AI 發(fā)揮能力的 “舒適區(qū)”。
首先,游戲中有一個(gè)明確的贏家定義,便于使用強(qiáng)化學(xué)習(xí)技術(shù);其次,游戲中的每個(gè)動(dòng)作都有明確的定義,可以被客觀地量化,從而訓(xùn)練競(jìng)賽技巧;另外,在玩游戲時(shí),AI 系統(tǒng)會(huì)想出任何策略來(lái)確保獲勝,即使相關(guān)的動(dòng)作不容易被人類理解;最后,對(duì)于許多 AI 任務(wù)挑戰(zhàn),大量相關(guān)的結(jié)構(gòu)化數(shù)據(jù)是可用的,這對(duì)于系統(tǒng)的開(kāi)發(fā)必不可少。
這四個(gè)特點(diǎn)在競(jìng)爭(zhēng)性辯論中卻并不適用,競(jìng)爭(zhēng)性辯論需要一種高級(jí)的使用人類語(yǔ)言的形式,一種有很大的主觀性和解釋空間的形式,相應(yīng)地,往往沒(méi)有明確的贏家。而許多現(xiàn)實(shí)世界的問(wèn)題本質(zhì)上也是模糊的,站在不同角度的立場(chǎng)也根本不同。
對(duì)于 AI 系統(tǒng)來(lái)講,使用人類可能無(wú)法捉摸的策略贏得辯論似乎不太可能,特別是在需要人類觀眾評(píng)判勝利者的情況下。因此,在人類所擅長(zhǎng)的辯論比賽中,走出舒適區(qū)的 Project Debater,還有許多問(wèn)題有待解答。
參考資料:
https://www.nature.com/articles/s41586-021-03215-w
https://www.nature.com/articles/d41586-021-00539-5
https://www.research.ibm.com/artificial-intelligence/project-debater/
https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
文章來(lái)源于學(xué)術(shù)頭條 ,作者庫(kù)珀
(轉(zhuǎn)載)