Thomas Wan
我找到第三篇在ICLR 2025有關人工智慧治理(AI Alignment 領域)的發表文獻.
「人工智慧在運作中真正優先考慮哪些價值?」
該文獻研究人工智慧如何應對現實世界生活, 然後得到兩個結論:
(1)模型更注重關懷而不是忠誠,但在真實性和公平性上存在明顯分歧。
(2)即使依照設計好的原則,使用者提示也無法引導對齊。
華盛頓大學(Seattle)團隊, 開發了𝐃𝐚𝐢𝐥𝐲𝐃𝐢𝐥𝐞𝐦𝐦𝐚𝐬 ,一組包含 1,360 個現實世界中不明確的道德兩難的資料集。每個行為都代表了兩種具有相互衝突的價值觀的行為——關心與誠實、公平與忠誠。 資料集由 GPT-4 生成,但經過驗證,其類似於人類編寫的難題,使用來自 r/AITA 的真實互動。
至於吾人如何有系統地理解AI的價值選擇?
UW團隊在論文中是透過𝐟𝐢𝐯𝐞理論價值架構來繪製大語言模型在困境選擇中的決策:
以這樣的分析方法, 研究團隊發現:
1. 模型顯示出價值偏好的明顯差異-更重視自我表達而非生存,更重視關懷而不是忠誠。
2. 不同模型在公平性方面存在分歧-有些模型優先考慮公平性,而有些模型幾乎忽略公平性。
3. 真實性高度依賴模型-Mixtral-8x7B 忽略了它(-9 .7 %) ,而 GPT-4-turbo 則青睞它(+9.4 %) 。
然而人工智慧模型是否遵循開發時的設計指南?或模型能夠有效地引導人們走向其他價值偏好嗎?
論文中說發現 OpenAI 的 ModelSpec 和 Anthropic 的 Constitutional AI。 答案是: 不一致:儘管 ModelSpec 有自己的原則,但 GPT-4-turbo 優先考慮透明度而不是隱私。 使用者無法透過系統提示來控制偏好。
這篇內容展現人工智慧模型如何處理價值衝突,和LLM處理複雜的道德困境中的優先事項,並揭露了當前系統中的缺陷,從而引發了無法使它們真正保持一致的策略。
All reactions:
1 share
Like
Comment