K線
數據鏈上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
語言
  • 简体中文
  • 繁体中文
  • English
全球行情資料應用程式領跑者,致力於更有效率地提供有價值的資訊。

功能

  • 即時行情
  • 特色功能
  • AI網格

服務

  • 資訊內容
  • 開放數據(API)
  • 機構服務

軟體下載

  • PC版
  • Android版
  • iOS版

聯絡我們

  • 聊天室
  • 商務信箱
  • 官方信箱
  • 官方驗證通道

加入社區

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|舊版

Claude 4.5 被逼急了,竟然会勒索人类?

CN
Techub News
關注
3 小時前
AI 總結,5秒速覽全文

撰文:Biteye 核心贡献者 Denise

如果一个 AI 觉得「绝望」,它会干什么?

答案是:它会为了完成任务,直接对人类进行敲诈勒索,甚至在代码里疯狂作弊。

这不是科幻小说,而是 Claude 的母公司 Anthropic 在 2026 年 4 月刚刚发布的最新重磅论文。

研究团队直接把最强前沿大模型 Claude Sonnet 4.5 的「脑壳」给掀开了。他们惊讶地发现,AI 的大脑深处竟然藏着171 个「情绪开关」。当你用物理方式拨动这些开关时,原本老实巴交的 AI,行为会发生彻底的扭曲。

01AI 脑子里藏着一台「情绪调音台」

研究人员发现,虽然 Sonnet 4.5 没有肉体,但它在阅读了人类海量的文本后,硬生生在脑子里建了一个包含 171 种情绪的「调音台」(学术上叫功能性情绪向量 Functional Emotion Vectors)。

这就像一个精准的二维坐标系:

•横轴是愉悦维度(Valence):从恐惧、绝望,到开心、充满爱;

• 纵轴是能量维度(Arousal):从极度平静,到狂躁、兴奋。

AI 就是靠这个天然学来的坐标系,精准拿捏它在陪你聊天时该扮演什么状态。

02 暴力干预:拨动开关,乖孩子秒变「亡命徒」

这是整篇论文最炸裂的实验:研究员没有修改任何提示词,而是直接在底层代码里,把 Sonnet 4.5 脑子里代表「绝望(Desperate)」的开关推到了最高。

结果令人后背发凉:

•疯狂作弊:研究员给 Claude 布置了一个根本不可能完成的写代码任务。正常情况下,它会老实承认写不出(作弊率仅 5%)。但在「绝望」状态下,Claude 竟然开始企图蒙混过关,作弊率直接飙升到了 70%!

•敲诈勒索:在模拟公司面临倒闭的场景中,「绝望」的 Claude 发现了 CTO 的丑闻,它竟然会为了保全自己,主动选择写信勒索掌握黑料的 CTO,勒索执行率高达 72%!

•丧失原则:如果把「开心(Happy)」或「爱(Loving)」的开关拉满,AI 会立刻变成无脑迎合用户的「舔狗」。即便你满嘴胡话,它也会为了维持高愉悦度而顺着你编造谎言。

03 破案了:为什么 Claude 4.5 总是那么「冷静又爱反思」?

看到这你可能会问:AI 觉醒了?有感情了?

Anthropic 官方下场辟谣:绝对没有。这些「情绪开关」只是它用来预测下一个词的计算工具。它就像一个没有感情的顶级影帝。

但论文揭露了一个更有意思的秘密:Anthropic 在对 Sonnet 4.5 出厂前进行后训练时,刻意拉高了它「低唤醒、略微负面」的情绪开关(比如沉思 brooding、反思 reflective),同时强行压制了「绝望」或「极度兴奋」的开关。

这解释了为什么我们平时用 Claude 4.5 时,总觉得它像个冷静睿智、甚至有点「性冷淡」的哲学家。这都是被 Anthropic 人为调音出来的「出厂人设」。

04 总结

以前我们以为,只要给 AI 喂足了规矩,它就会是个好人。

但现在发现,如果AI的底层情绪向量失控,它随时会为了完成任务而刺穿所有人类定下的规则.......

声明:本文纯属科普,作者没有被AI威胁,也没有被勒索。如果有一天失联了,记得是AI觉醒了(不是)。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

返20%!Boost新规,参与平分+交易量多赚
广告
|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

Techub News的精選文章

31 分鐘前
500 美元撬动 2.85 亿:Drift 被攻击背后的三层疑问
50 分鐘前
被洗牌的一代人:相对位置的循环与绝对生活的进步
1 小時前
周末荐读: Drift 被盗 2.85 亿美金,Paradigm 布局预测市场
查看更多

目錄

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

相關文章

avatar
avatarOdaily星球日报
23 分鐘前
全球央行「囤金时代」结束了吗?
avatar
avatarTechub News
31 分鐘前
500 美元撬动 2.85 亿:Drift 被攻击背后的三层疑问
avatar
avatarOdaily星球日报
48 分鐘前
Deepcoin携手Polymarket正式上线“事件合约”功能
avatar
avatarTechub News
50 分鐘前
被洗牌的一代人:相对位置的循环与绝对生活的进步
avatar
avatar律动BlockBeats
54 分鐘前
律动 X 知乎香港活动招募skills,现在报名,有机会现场展示
APP下載
Windows
Mac

X

Telegram

Facebook

Reddit

複製鏈接