去九宮格共享智能算法安全：內涵、科學問題與展望_中國網

中國網/中國發展門戶網訊人工智能（AI）技術經過幾十年的發展，正在進入一個技術創新與顛覆式應用模式頻現的爆發期，人工智能倫理與安全問題受到廣泛關注。美國達特茅斯會議之前，科幻作家阿西莫夫提出了“機器人三大定律”，關于人工智能的倫理與安全問題在這之后的很長一段時間主要集中在哲學和科幻領域。21世紀，以大數據融合深度學習為代表的統計學派占據了人工智能技術主流，人工智能的倫理與安全問題開始凸顯。近年來，生成式大模型在文本、圖像、視頻、自然語言處理等領域產生系列現象級應用，人工智能的倫理與安全問題快速出現，受到社會廣泛關注。例如，2019—2021年，美國國家公路交通安全管理局統計共發生807起自動駕駛車禍案件，其中超過90%的案件涉及啟用Autopilot功能的特斯拉車輛撞擊帶有明顯標識的靜止車輛、公路隔離墩甚至行人；2018年9月，廣州市共查處外賣騎手交通違法近2 000起，主要原因是外賣騎手為趕在平臺AI算法設定的限制時間內送達外賣而采取超速、逆行等危險駕駛行為；2016年，社交媒體平臺Facebook在美國大選期間被俄羅斯機構利用AI算法投放約8萬條政治輿論相關的帖子，劍橋分析公司非法使用8 700萬臉書用戶的數據并利用AI算法針對性地發送政治宣傳廣告。

針對日益嚴峻的人工智能安全問題，各國政府在積極探索有效治理模式。我國2021年以來先后發布了《新一代人工智能倫理規范》《可信人工智能白皮書》《互聯網信息服務算法推薦管理規定》與全球首部針對生成式人工智能的法規《生成式人工智能服務管理暫行辦法》；并于2023年10月發布《全球人工智能治理倡議》，圍繞人工智能發展、安全、治理3個方面系統闡述了人工智能治理的中國方案，提出11項倡議。美國白宮2023年10月首次針對AI發布行政令，涵蓋建立AI安保、隱私保護、人權保護、促進創新等多方面內容。歐洲2023年11月召開首屆全球AI安全峰會并簽署《布萊特利宣言》，確認解決人工智能對人權保護、透明度和可解釋性、公平性、問責與監管機制、道德偏見、隱私和數據保護等問題的必要性和緊迫性；歐盟理事會于2024年7月公布《人工智能法案》，該立法遵循“基于風險”的方法，風險等級越高，管控越嚴格。

人工智能領域的學者們呼吁重視人工智能存在的安全風險。2022年6月，舞蹈場地第24屆中國科協年會發布十大前沿科學問題，信息領域唯一一個問題是“如何實現可信可靠可解釋人工智能技術路線和方案”。2023年3月，1 000余位人工智能領域學者簽署公開信，呼吁立即暫停訓練比GPT-4更強大的AI模型，為期至少6個月。2023年5月，圖靈獎獲得者Geoffrey Hinton教授從谷歌離職，原因是“為了自由地討論人工智能的風險”，該事件引發社會各界對強人工智能何時實現、其是否會取代人類等人工智能倫理安全問題的大討論。

本文認為社會上對人工智能安全性的恐懼主要來自科幻電影和媒體的夸張宣傳，認為智能機器將會有自主意識，完全脫離人的控制，甚至成為新的物種征服人類，這只是一些人的猜測，目前還沒有科學依據，在可預見的未來，還不構成真正的安全威脅。對于長遠未來可能存在的安全問題，各國政府和前沿研究的學者們已經開始探討在人工智能研究和開發過程中加強倫理道德的規范和引導，確保自主智能的時租場地發展符合人類的價值觀和利益。本文更加關注當前AI應用過程中已經存在且愈演愈烈的問題。

盡管各國政府和國內外學者高度重視人工智能安全，但對處于人工智能核心的智能算法安全內涵理解尚未深入，實現算法安全治理的技術路徑尚不明晰。本文旨在以計算的視角，梳理智能算法安全的需求，明確智能算法安全的內涵，并針對智能算法安全的目標，探討關鍵科學問題，提出潛在關鍵技術及其應用。這對在智能化時代確保人類自身安全、保障用戶權益、維護社會穩定，最終實現人機共治，具有重要意義。

智能算法安全的內涵

智能算法

算法是指將信息進行變換的計算過程所體現的方法。高納德（Donald E. Knuth）教授定義算法為求解特定類型問題的運算序列的一組有窮規則，并具備有窮性、確定性、輸入、輸出、能行性5個特征。

智能算法在本文中定義為實現智能的計算過程所體現的方法。智能算法大多具有數據驅動、不確定性計算、模型推斷難解釋等典型特征。智能算法的設計者基于少量知識設計參數化模型，依賴數據訓練模型參數。計算機在訓練階段基于隨機迭代計算更新模型，在推斷階段使用訓練所得模型面向具體任務產生輸出（圖1）。基于多種任務來源的數據，智能算法所訓練的模型具有執行多種任務的能力。由于智能算法利用了大量數據中蘊含的知識，設計者所需的知識明顯減少，在此意義上稱其具備“智能”。

智能算法目前以深度學習為典型代表，其不確定性與智能的關系值得深入思考。基于隨機數據學習的計算每一步迭代的機理是確定的，但經過多步迭代后的計算規則人類難以理解，規則意義上的確定性大大降低。與智能算法相比，傳統算法的設計者依據特定知識設計確定性的計算規則，并由計算機執行產生輸出。故基于規則的計算如果能自發生成新的規則即可以減少對知識的依賴，在這種情況下，傳統算法可以進階為智能算法。

智能算法的計算不確定性、結果復雜難解釋等特性使得對其安全風險進行管控極具挑戰。近年來，基于多模態大模型的智能算法顯著提升了多任務執行能力，與人類交互的障礙大大減小，應用場景急速擴大。與此同時，智能算法中模型判定與生成的不確定性結果對人類產生的不良影響也日益凸顯。以大語言模型為例，基于數據驅動的概率生成模式，可能生成與現實世界事實不一致的幻覺內容，產生錯誤；大模型的訓練、推斷機理復雜難解釋，模型的漏洞隱性難發現，在惡意者對抗攻擊下，可能出現推斷錯誤、導致歧視或泄漏用戶隱私等現象。

智能算法安全的內涵

智能算法安全研究致力于降低智能算法對人類產生的風險，研究如何度量、評估、增強智能算法的安全程度。智能算法應用領域廣泛，正在與人類自身活動交互融合。人機融合的程度越深，風險形成的過程越復雜，科學問題的挑戰越大，安全治理技術的要求越高。因此，本文將算法安全需求場景中人機智能交互的程度劃分為算法內生一元、人機交互二元與人機共生多元3個安全層級。算法內生一元安全層級。算法作為生產工具幫助人類在物理空間的已有任務上提升執行效率、減小人類投入或降低對生態環境的不良影響。例如，智慧農耕算法提升糧食產量，智能調度算法減少能源消耗，自動駕駛算法降低人類駕駛負荷，科學智能算法加快科學發現的進程等。此類任務中，算法往往具備內在的適用邊界，當任務執行不當時會觸發物理世界中的事故。例如，自動駕駛車禍導致人民生命財產安全事故，自動交易算法異常導致經濟損失，大模型幻覺導致錯誤決策等。人機交互二元安全層級。在網絡化應用中，大量算法依托平臺為用戶提供交互式智能服務。例如，搜索推薦算法為用戶提供快速準確的信息獲取服務，外賣平臺算法為消費者、商家、快遞員提供實時、高效的配置方案，視頻游戲類算法為用戶提供電子類休閑娛樂服務等。在這些應用中，算法作為智能服務提供方，可能由于損害用戶權益而觸發服務產品的風險。例如，搜索算法泄露用戶隱私，外賣平臺導致快遞員疲于奔命，信息推薦算法導致用戶陷入信息繭房等。人機共生多元安全層級。算法通過物理空間和網絡空間與人類共同參與社會活動，形成人類智能和機器智能交織的人機共生系統。例如，帶有智能體的社交平臺，智能算法參與的金融交易系統，有人—無人系統共同參與的軍事演習等。此系統中，算法可能由于通過行為傳導而觸發系統性安全風險。例如，基于社交平臺的選舉操控③，基于網絡空間的社會認知博弈等。

智能算法3個安全層級依次嵌套，算法內生一元安全層級是人機交互二元安全層級中機器在物理域對人提供的局部服務，人機交互二元安全層級是人機共生多元系統的人機二元局部交互系統，故單個智能算法會面臨跨層次的安全風險。例如，智能駕駛的主要風險中，自動駕駛算法不穩定導致的交通事故屬于算法內生一元安全層級，算法泄露用戶隱私數據的風險屬于人機交互二元安全層級；互聯網服務平臺中，調度決策算法導致司機、騎手權益受損屬于人機交互二元安全層級，在突發極端情況下交通擁塞導致算法可用性下降屬于算法內生一元安全層級；社交平臺被用于政治干預產生社會認知風險屬于人機共生多元安全層級，平臺用戶面臨隱私泄漏和信息繭房等風險屬于人機交互二元安全層級。

智能算法安全層級（TRC）范式

智能算法3個層級關注的安全風險類型和產生原因不同：一元場景中關注由算法內生缺陷導致算法性能不可信，二元場景中關注由算法應用中的濫用誤用導致算法服務不可管，多元場景中關注由人機算法博弈對抗導致系統演變不可控。智能算法安全的目標是實現智能算法一元內生決策可信（trustworthiness）、二元服務應用可管（regulatability）、多元系統風險可控（controllability），即智能算法安全層級范式（以下簡稱“TRC范式”）（圖2）。

一元內生性安全限定于機器自身，聚焦于智能算法內生缺陷導致的算法決策失信。人類設計智能算法的最初目的是順利實現其預期功能，其達成任務目標的能力僅由算法自身決定，而與其如何被使用無關。在一元安全的范疇內，算法的風險來自算法自身缺陷所導致的失能或失效，體現為在遇到數據環境被動性變化或主動性對抗攻擊時功能失效或性能下降。因此，內生性安全著眼于智能算法在可變及對抗環境下的決策性能，其目標是構建性能穩健可靠的智能算法，實現智能算法內生機理可信。

二元應用性安全關注智能算法濫用誤用導致的算法行為與用戶權益的失配。隨著算法的智能水平逐漸接近人類智能，其與人類的互動也日益緊密，影響日益顯著。算法的風險主要源于其行為與人類社會的普遍價值觀（如公平、公正、隱私等）不一致，例如互聯網服務可能導致的歧視、隱私泄漏、觀點極化等道德或倫理失范和混亂問題。算法應用性安全的目標是技術向善，在智能算法服務用戶的同時，避免損害個體和公眾的權家教益，確保技術創新與社會價值觀的和諧共融，實現智能算法的應用服務可管。

多元系統性安全著眼于人機共生系統中因算法博弈對抗導致復雜社會系統的演化不可控。智能算法的快速發展，促使復雜社會系統人機智能融合，模糊了人機邊界，重構了社會結構與組織關系。與此同時，智能算法的自主決策演變可能會導致復雜社會系統呈現組織結構坍塌、傳播鏈式反應、系統臨界態不確定等失序、失控現象。算法在某些任務上，如內容生成和傳播等，具有超越人類智能的能力，這使得社會系統存在被算法干預的風險。隨著社會系統中的系統博弈強度升級，系統性風險開始顯現，例如偽造政治謠言、惡意宣傳、社會認知操控、有人—無人系統失控等。實現人機共生系統安全的可能路徑包括通過復雜社會系統的可計算建模，識別與調控復雜社會系統風險的相變點，實現智能算法的社會風險可控。

智能算法安全層級范式與其他領域的聯系

TRC范式可以涵蓋已有的相關概念（表1）。可信算法與TRC范式的關系：智能算法的可信性一般指算法能被用戶或社會認為是可信賴的、可依賴的，包括算法的魯棒性、公平性、可解釋性、隱私性、可審計性等，其定義包含于TRC范式之中。負責任算法與TRC范式的關系：智能算法的負責任性一般指算法的行為符合道德、法律要求，避免對人類、環境或社會造成危害或不良影響，其定義包含于TRC范式之中。TRC范式中的系統性：現有相關概念僅適用于描述算法本身，故不適用于系統性安全層面。

智能算法安全是涉及社會域安全的一門新興學科，與其他安全類學科有一定的聯系（圖3）。在數字化早期階段，物理世界數字化是主體任務，物理電磁空間安全是關鍵，著重解決通信安全、電磁安全與頻譜控制等難題；隨著互聯網的發展，人機互聯推動信息域與物理域融合，網絡與信息安全問題凸顯，網絡安全與信息系統安全成為重點。當前社會已經進入智能化時代，萬物互聯，“物理—信息—社會”時租三元空間融合，算法成為影響智能社會運行的核心引擎之一，智能算法安全成為新的安全挑戰。這種挑戰的出現是信息社會發展演進的必然結果，不同于以往主要關注物理域和信息域的物理安全以及網絡信息安全，智能算法安全的關注點更加聚焦于由智能算法帶來的社會域問題，需要重新審視和構建安全保障的策略和措施。

智能算法安全的科學問題

基于對智能算法及其內涵的理解，本文認為智能算法安全的核心挑戰是確定性的安全要求與不確定性計算的智能算法及其難以度量的社會域風險三者之間的矛盾。基于智能算法安全內涵，結合目前的技術難點與核心挑戰，面向TRC范式的不同層次，提出智能算法在安全“度量—評估—增強”技術鏈條的相應挑戰。針對內生性安全，度量是任務執行的功能指標，評估目前主要是試驗性方法，增強方面也主要是啟發式增強方法；針對應用性安全，度量的部分權益維度可計算，例如隱私性、公平性，但缺乏統一的價值觀度量與計算方法，靜態、平均情形評估技術居多，實時、最壞情形監測技術欠缺；針對系統性安全，由于系統演化規律未知，可計算的社會安全度量尚未建立。因此，TRC范式的技術難點依次為，內生性安全評估的理論判定，應用性安全評估的監測技術，系統性安全度量中的可計算方法。考慮到TRC的層級嵌套關系，每個技術難點的解決以其前一個難點的解決為必要條件。綜上，總結如下智能算法安全的3個關鍵科學問題。

不確定性算法的可信域判定問題。智能算法包含不確定性計算，具有數據驅動、模型復雜、機理不清晰等特點。模型的不穩定性使得算法決策的精準性和穩定性難以兼得；數據的不完備性使得關聯統計失效，導致算法決策偏差；應用場景的突變性使得算法場景先驗假設失效，導致算法行為失控。如何實現對高復雜、強不確定性智能算法的可信域判定和增強，是保障智能算法內生性安全的關鍵科學挑戰。

黑箱模型的透明化監測問題。智能算法具有模型黑箱和結果難解釋等特性，算法風險評估僅能通過算法的外顯行為進行。智能算法黑箱體現為數據黑箱（使用數據不透明）、模型黑箱（決策機制不透明）和目標黑箱（設計意圖不透明），從而導致監管方和算法運營方存在信息不對稱。如何僅通過算法運行過程中的外顯行為反向推斷算法的內在機理，實現算法透明監測，是保障智能算法應用性安全的關鍵科學挑戰。

人機共生智能系統的臨界點感知問題。智能算法促使復雜社會系統人機智能融合，模糊了二者的邊界。傳統復雜系統理論缺乏對社會系統的可計算建模，不能滿足社會系統風險演化相變的臨界態分析需求。如何建模感知測繪、信息生成、信息傳播，識別與調控復雜社會系統安全風險的相變點，是保障智能算法系統性安全的關鍵科學問題。

研究方向建議

圍繞智能算法安全相關基礎理論、關鍵技術及應用需求，中國科學院計算技術研究所部署設立了智能算法安全重點實驗室，旨在重點突破TRC范式面臨的重大科學問題，服務國家在智能算法安全治理和網絡空間社會治理兩大需求。開展上述方向研究，不僅需要學術界綜合利用多學科交叉理共享會議室論技術，更需要產業、政府部門提供實際應用和業務需求，各方共同構建新一代人工智能安全治理框架。本部分依據智能算法安全的TRC內涵，針對前述3個科學問題，建議體系性地加強7項關鍵理論與技術研究，以期得到相關領域研究者與社會各界的關注，共同推動智能算法安全的持續發展。7個研究布局建議依據TRC范式體系性的提出，不僅為已出現的研究領域提供了新的研究思路并將它們聯系起來，同時指出了學術界仍未關注到的研究領域。

可信判定理論為智能算法安全的基礎理論支撐6項關鍵技術。針對智能算法面臨的模型不穩定、數據不完備、場景突變等挑戰，研究建立深度學習的數學原理，形成對模型在優化過程中收斂性的判定；研究建立因果學習理論，形成模型對不完備數據適應性的判定；研究建立可信學習理論，形成對模型在可變及對抗環境中泛化性的判定。

可信機制嵌入技術為安全增強提供基礎性方法。針對環境被動性變化導致的安全問題，研究先驗知識嵌入技術，實現對智能算法內生機理的安全增強；針對環境中主動性對抗攻擊導致的安全問題，研究防御機制嵌入技術，實現對智能算法防御能力的加固增強；基于價值觀可計算度量技術，建立可信價值觀嵌入方法，實現應用性安全增強。

社會域風險可計算度量技術為應用性安全建立度量標準。旨在衡量算法與每一個共享空間用戶交互的過程中，是否符合倫理道德和法律的合規性。針對應用場景多變和人類價值觀（例如法律法規、道德標準等）難以量化所造成的度量困難，通過建立度量大模型，對算法應用中出現的風險案例進行基于語義的評價。

智能算法黑箱監測技術可向內支撐內生性安全評估、向外延展到系統性安全評估。基于模型碰撞的意圖識別，推斷模型內在機理，為應用風險判定奠定重要基礎；基于用戶模擬的風險發現，從宏觀層面發現算法導致的隱私泄露、“信息繭房”、公平性等應用風險；基于紅隊測試的案例生成，面向特定的度量指標，構造或挖掘違反度量指標的樣例，作為判定的取證樣例。

價值觀對齊技術依據可計算度量技術和可信嵌入技術，實現智能算法應用性安全增強。包括事前的全局對齊訓練與事后的局部對齊編輯相結合的范式。在模型發布前，根據度量模型，通過監督微調、人類反饋強化學習、AI反饋強化學習、基于規則的獎勵模型等方式進行智能算法和價值觀的對齊訓練；在風險發生后，根據找到的違反度量指標樣例，通過對齊編輯、神經元定位及修復等方式，修復特定性錯誤。

人機共生智能系統演化模擬技術為開展系統性安全研究建立前提。建立復雜社會認知模擬系統，并設計博弈效用度量及其動態評估方法。建立微觀個性化與宏觀群體化相結合的社會域安全度量可計算方法，探索觀點、立場、情感、價值觀等因素的量化體系，形成體系化的復雜系統博弈效用評估標準與評估模型。提出對真實系統進行模擬對齊的方式，評估智能算法系統性安全。

人機共生智能系統臨界點感知與調控技術是系統性安全評估與增強的核心技術。通過脆弱點發現與多模態可控內容生成相結合，增強算法博弈下的系統性安全。探索智能算法對復雜社會系統相變點的干預機制，構建社會系統脆弱點感知發現和系統風險調控的關鍵技術鏈，形成具備對算法惡意介入社會系統的防御手段，以及算法介入的社會系統調控手段，實現復雜社會系統風險相變點的識別與調控。

智能算法安全建議與未來展望

隨著人工智能技術的快速發展并在不同行業領域廣泛產生顛覆性的應用，智能算法的安全問題也愈發成為人工智能發展中的關鍵瓶頸。既需要結合實際需求場景解決智能算法所引發的數據、模型、應用等實際問題，也需要重視智能算法安全的基礎理論研究以及學科建設工作。雖然科技發展伴隨安全風險，但相信憑借各方的高度關注、全球協作、持續不懈，這把人工智能倫理與安全的達摩克利斯之劍，將最終被人類所駕馭。在我國加速推動新一代人工智能發展的戰略布局中，要重視與智能算法安全相關的4個方面工作。

夯實基礎理論。智能算法安全的核心矛盾及3個科學問題對經典的計算復雜性理論、復雜系統理論、人工智能安全與倫理研究提出了全新挑戰，如何在計算視角下推動這些理論的發展，并最終匯聚夯實智能算法安全的理論基礎是關鍵。相關理論研究不僅是建立智能算法安全的基石，也將促進傳統計算理論在智能化時代變革發展。

促進學科交叉。智能算法安全將傳統的信息安全拓寬到更廣泛的社會域人機共生智能系統安全。相關研究涉及計算、智能、安全、倫理、法律及社會科學相關的多個學科領域，需要跨學科交叉共同研究，建立基于多學科基礎的技術解決方案。與此同時，要推動國內外同行交流合作，共同形成全球人九宮格工智能的治理框架并理性發聲，從而在新一輪科技革命中掌握一定話語權。

推進算法安全產業閉環。借助商業模式創新，提升算法安全技術突破在算法服務中的應用速度與質量。鼓勵提供算法安全服務的企業，通過算法可信增強技術與算法合規輔導服務，為企業節省安全維護成本、提升業務質量、實現商業價值，進而獲取相應的商業回報。依托于核心技術突破，借助商業模式的推動，靈活快速地推動科技成果的落地應用。

加快人才培養。智能算法安全是一個全新的、快速發展的學科領域，應加快培養該領域的科研團隊力量，為優秀青年學者提供穩定的科研資源支持。同時，應盡快制定本領域研究生培養方案，探討在計算機、人工智能和大數據相關學科領域設立智能算法安全本科專業的培養方案。

（作者：程學旗、陳薇、沈華偉、山世光、陳熙霖、李國杰，中國科學院計算技術研究所智能算法安全重點實驗室中國科學院大學計算機科學與技術學院。《中國科學院院刊》供稿）