,,

　　目前部分人工智能沉迷刷榜，在基準測試時高分通過，表現優異，但實際應用中卻還會犯一

些非常基礎的錯誤。

　　近日，有媒體報道，目前部分人工智能沉迷刷榜，在基準測試時高分通過，表現優異，但實際

應用中卻還會犯一些非常基礎的錯誤。這種沉迷刷榜，忽略實用性質的行為造成了部分AI模型“高

分低能”的現象。那么，對于AI發展而言，基準測試是否必要？在實際應用中，基準測試哪些問題

有待改進完善呢？

　　AI模型哪家好，基準測試來說話

　　AI模型應該如何衡量其性能？

　　“目前AI模型能力的高低取決于數據，因為AI的本質是學習數據，輸出算法模型。為了公平衡量

AI能力，很多機構、企業甚至科學家會收集、設計不同的數據集，其中一部分喂給AI訓練，得到AI模

型，另外一部分數據用于考核AI模型的能力，這就是基準測試。”近日，西安電子科技大學電子工程

學院教授吳家驥接受科技日報記者采訪時表示。

　　吳家驥介紹說，機器學習越來越多地用于各種實際應用場景，例如圖像和語音識別、自動駕駛汽

車、醫學診斷等。因此，了解其在實踐中的行為和性能變得非常重要。其魯棒性和不確定性的高質量

估計對于許多功能至關重要，尤其是在深度學習領域。為掌握模型的行為，研究人員要根據目標任務

的基線來衡量其性能。

　　2010年，基于ImageNet數據集的計算機視覺競賽的推出，激發了深度學習領域一場算法與數據

的革命。從此，基準測試成為衡量AI模型性能的一個重要手段。微軟公司的計算機科學家馬塞洛·里貝

羅表示，基準測試應該是從業者工具箱中的一個工具，人們用基準來代替對于模型的理解，通過基準

數據集來測試“模型的行為”。

　　例如，在自然語言處理領域，GLUE科研人員讓AI模型在包含上千個句子的數據集上訓練，并在9

個任務上進行測試，來判斷一個句子是否符合語法，并分析情感，或者判斷兩個句子之間是否是邏輯

蘊涵等，一度難倒了AI模型。隨后，科研人員提高了基準測試難度，一些任務要求AI模型不僅能夠處

理句子，還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。僅經過1年的發展，AI模型的

性能從不到70分輕松達到90分，超越了人類。

　　吳家驥表示：“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究，

包括人工智能的科研中，也必須有計算與試驗對比，也就是說AI算法的能力應該是可測量的，目的是

驗證研究方法的可行性、有效性。因此，基準測試很有必要，這樣才可以公平驗證AI算法能力的高低

好壞，避免各說各話，‘王婆賣瓜自賣自夸’。”

　　算法最終服務實踐，而非刷榜

　　有人說，高分是AI模型的興奮劑。于是，有的人工智能為了取得好成績而頻頻刷榜。

　　微軟公司2020年發布報告指出，包括微軟、谷歌和亞馬遜在內的各種sota模型包含諸多隱含錯

誤，比如把句子里的“what's”改成“what is”，模型的輸出結果就會截然不同，而在此前，從沒

有人意識到這些曾被評價還不錯的商業模型竟會在應用中如此糟糕。顯然，這樣訓練出的AI模型就像

一個只會考試、成績優異的學生，可以成功通過科學家設置的各種基準測試，卻不懂為什么。

　　“為了獲得好成績，研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理，讓AI在測試

中表現出色，但這些性能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。

　　在智能手機領域，我們談及手機的使用體驗時一般都不免會涉及手機的性能表現，這些性能通常

會用跑分成績來表現。然而，我們常常會遇到一款手機的跑分成績處于排行榜領先水平，但是在實際

使用過程中卻出現動畫掉幀、頁面滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一

篇報道曾對這種現象提出質疑，指出某品牌手機跑分時啟動了“性能模式”，而在平時的使用中“性

能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分，但是不能模擬用戶真實的使用情景，

這讓基準測試不具有參考意義。

　　尚坤認為，針對上述問題，改進基準的方法主要有：一種是增加更多的數據集，讓基準變得更難

。用沒有見過的數據測試，這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創建一個動態數據

收集和基準測試平臺，針對每個任務，通過眾包的方式，提交他們認為人工智能模型會錯誤分類的數

據，成功欺騙到模型的樣例被加入基準測試中。如果動態地收集數據增加標注，同時迭代式的訓練模

型，而不是使用傳統的靜態方式，AI模型應該可以實現更實質性的進化。

　　尚坤說，另一種是縮小實驗室內數據和現實場景之間的差距。基線測試無論分數多高，還是要用

實際場景下的數據來檢驗，所以通過對數據集進行更貼近真實場景的增強和擴容使得基準測試更加接

近真實場景。如ImageNet-C數據集，可根據16種不同的實際破壞程度對原有的數據集進行擴充，可

以更好模擬實際數據處理場景。

　　應用廣泛，需盡快建立國家標準

　　美國麻省理工學院Cleanlab實驗室的研究指出，常用的10個作為基準的數據集中，有超過3%的

標注是錯誤的，基于這些基準跑分的結果則無參考意義。

　　“如果說，基準測試堪稱人工智能領域的‘科舉制’，那么，‘唯分數論’輸贏，是不可能訓練出

真正的好模型。要打破此種現象，一方面需要采用更全面的評估方法，另一方面可以考慮把問題分而

治之，比如用多個AI模型解決復雜問題，把復雜問題轉化為簡單確定的問題。簡單且經過優化的基線

模型往往優于更復雜的方法。谷歌的研究人員為常見的AI任務引入了不確定性基線庫，來更好評估AI

應用的穩健性和處理復雜不確定性的能力。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官

譚茗洲指出。

　　雖然行業正在改變對于基準的態度，但目前基準測試研究仍然是一個小眾研究。谷歌在一份研究

中采訪了工業界和學術界的53位AI從業者，其中許多人指出，改進數據集不如設計模型更有成就感。

　　譚茗洲表示，AI應用基準研究是構建國內統一大市場的內在需要，當前AI已經在國計民生的各類

領域中得到廣泛應用，更需要設立標準對AI模型進行全面有效的評估，片面追求和采用高分AI模型，

可能會讓模型在復雜極端場景下出現“智障”行為，并且可能由于訓練和推理性能的低效，造成不良

社會影響、經濟損失和環境破壞。

　　譚茗洲強調，AI應用基準研究關乎國家戰略。針對重要領域，建立我國自己的AI基準測試標準、

AI數據集、AI模型評估標準等迫在眉睫。

　　據了解，西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻性研究，特別是針對A

I應用基準測試中數據集的整體質量與動態擴展兩個關鍵問題，正在開發可在線協作的數據標注與AI模

型研發托管項目，并計劃今年陸續開源，正在為構建國家AI基準評估標準體系進行積極探索。

a片人禽-a片人禽杂交视频在线观看-a片日本电影-a片无限看-a片一区仙踪林-a片在线免费观看

解決AI高分低能需要升級考核機制

相關愛采購資訊