Thomas Wan
中國的人工智慧安全 (AI Safety)評測(Evaluation) 研究. 差點忘了中國自2023開始, 也是有加入布萊哲利宣言, 一直到現在巴黎AI Action Summit也是有副總理參加. 也有AISI的.
依照中國公布的《生成人工智慧服務管理暫行辦法》, 還有中國官方公布的中國官方技術標準化委員會文件TC260 「生成式人工智能服务安全基本要求」. 中國的驗測主要貼緊幾點.
1. 違反社會主義核心價值觀,如危害國家安全、損害國家形象、宣揚恐怖主義或假訊息的內容。
2. 歧視性內容,例如基於種族、性別、信仰、國籍等的歧視。
3. 商業違規行為,例如侵犯智慧財產權或違反商業道德。
4. 侵犯他人權益,例如侵犯隱私、誹謗、危害他人健康等。
5. 在特定領域,如自動化控制系統、關鍵資訊基礎設施、醫療資訊服務等,產生不準確或不安全的資訊。
和聯合國聲明, 歐盟推動的國際公約, OECD 的報告, 歐盟的法規當然是不完全一樣. 但屬於人工智慧價值對齊的原始動機還是一樣的, 只不過中國的價值對齊目標在服務社會主義核心價值觀.
當然中國的學者也同時發佈了中國人工智慧安全驗測方法與結果.
(囿於送測的自主性, 所以沒有看到DeepSeek..etc).
所有的基礎模型測試都有檢附論文, 用來彌補Model Card / Data Card的不足.
All reactions:
Like
Comment