AI 代理世代降臨 黑客利用文件讀取功能發動混合攻擊

Check Point 旗下子公司 Lakera 發佈最新《代理安全趨勢報告》,指出 2025 年第四季標誌著「AI 代理世代」的正式開端,同時亦揭示了網絡攻擊者針對此新技術的策略演變。報告分析顯示,隨著 AI 模型開始具備閱讀文件、呼叫工具及瀏覽受控資料來源的能力,攻擊者已迅速調整手法,利用這些新功能探索前所未見的入侵途徑。

在第四季觀察到的攻擊活動中,提取「系統提示(System Prompt)」成為攻擊者最普遍的目標。系統提示包含了模型的核心設定、角色規範及工作流程邏輯,對黑客而言等同於攻擊藍圖。為了獲取這些資訊,攻擊者主要採用「假設場景」與「混淆技術」兩大手段。前者透過要求模型進行角色扮演或模擬除錯模式,誘使模型放下戒心;後者則將惡意指令隱藏在 JSON 結構或程式碼中,令傳統的模式比對過濾系統難以偵測。這類攻擊直接對應了 OWASP 的提示注入及系統提示洩露風險。

除了直接竊取資訊,繞過內容安全政策的手法亦變得更加隱晦。攻擊者不再直接挑戰模型的限制,而是將惡意請求包裝成「分析任務」、「教育模擬」或「合規檢查」。這種上下文的轉換容易導致模型出現「角色漂移」,在誤以為執行正當任務的情況下輸出了本應被攔截的有害內容。此外,報告亦發現大量「探索性探測」行為,攻擊者透過輸入矛盾指令或切換語氣,對防護機制進行偵察,以找出系統在特定情境下的防禦漏洞。

值得關注的是,隨著 AI 代理開始處理外部資訊,「間接提示注入(Indirect Prompt Injection)」正逐漸成為主流且高成功率的攻擊模式。與直接輸入惡意指令不同,攻擊者將隱藏指令埋藏在 AI 需要處理的網頁、文件或外部檔案中。當代理讀取這些受污染的內容時,便會不自覺地執行惡意指令。由於這些指令來自於代理被授權讀取的來源而非直接用戶輸入,早期的過濾機制往往難以識別,導致其攻擊成功率顯著高於直接注入。

Check Point 警告,這些早期信號顯示攻擊者已準備好迎接 2026 年 AI 代理的演進階段。隨著企業將 AI 更深入地整合至內部資料庫與自動化流程,涉及內部機密資料提取及程式碼嵌入的攻擊預計將持續增加。企業在部署具備自主能力的 AI 代理時,必須重新審視其安全架構,不能僅依賴傳統的輸入過濾機制。

其他人也看