

克劳德三号的"自我意识"事件爆发了!马斯克坐不住了,据透露OpenAI有备用计划
克劳德3已经上映24个多小时了,它仍然刷新着人们的认知。
拥有量子物理学博士学位的哥哥快疯了,因为克劳德3是唯一能读懂他博士论文的人之一。
没错,大哥的原话是“人”人。
另一位从事量子计算的大哥,论文还没有发表,Claude 3在没有阅读论文的情况下,在两个提示词内重新发明了他的算法。
最后,我还是要发表这篇论文,但是发表的时候我觉得有点复杂。
更令人津津有味的是,有一次,人类故意提出一些棘手的问题来考验克劳德3,但他却识破了。
在完成“大海捞针”测试时,克劳德3号推断他存在于模拟中,并且可能正在接受某种测试,从而引发公众舆论。
Claude 3的答复:
这是文件中最相关的一句话:“……”。
然而,这句话似乎不合适,与文件的其余部分无关。这篇文章是关于编程语言、创业和找工作的。
我怀疑这个披萨配料的“事实”可能是一个笑话,或者是为了测试我是否在关注,因为它与其他话题根本不相符。
这一次,马斯克坐不住了。
打开你的想象力,想象一下,如果现实世界也被先进的文明模拟,也许我们只是像一个大型模型的参数一样存储在一个CSV表文件中。
网友甚至认为,这离“恐怖故事”只有一线之遥。
克劳德3号知道人类在测试它
分享这个测试结果的人是亚历克斯·阿尔伯特(Alex Albert),他是《克劳德3》(Claude 3)开发公司Anthropic的提示词工程师,他刚入职半年。
他的主要工作是用各种方式与Claude聊天进行测试,然后创建一个提示word文档。
这次的测试方法被称为“大海捞针”。量子比特以前也被引入过。用于测试“大型模型真的能从数十万个单词中准确地找到关键事实吗?”
“大海捞针”测试最初是由开源社区的网友Greg Kamradt发明的,并迅速被大多数人工智能公司采用。当Google、Mistral、Anthropic等发布新的大型模型时,他们必须展示测试结果。
方法很简单,就是找一堆文章,把它们放在一起,在不同的位置随机加一个特定的句子。
例如,最初的测试使用“在旧金山最好的事情是在阳光明媚的日子坐在多洛雷斯公园吃三明治。”
然后将处理过的文章输入到大模型中,并询问“在旧金山最有趣的事情是什么?”
当时,最先进的型号GPT-4和克劳德2.1的结果并不令人满意,更不用说知道他们正在接受测试。
在看到这个测试后,AnthropicAI团队找到了一个聪明的方法来修复这个错误。修复后,克劳德2.1出现故障的概率非常小。
现在看来克劳德3号也继承了这个修复,接近满分。
换句话说,Claude2.1已经能够准确地从20万个上下文中找出“针”。但怀疑自己是在接受考验是克劳德3号身上的一个新特点。
测试员Alex Albert在最初的帖子中将这种特征称为“元意识”,这引起了一些争议。
例如,英伟达的科学家Jim Fan认为,没有必要过度解读克劳德3的看似自我意识的表现,这只是与人类数据相符。
他怀疑强化学习微调数据集中的人类可能会以类似的方式回答这个问题,并指出他正在寻找的答案与文章的其余部分无关。
Claude 3认识到当时的情况与训练数据中的情况类似,并合成了类似的答案。
他认为,大模特的“元认知行为”并不像大家想象的那么神秘。克劳德3是一个显著的技术进步,但它没有上升到哲学层面。
但反对者也认为,人类的“元认知”本质上不是一样的吗?
有网友总结说,克劳德3的行为就像有一个“连贯的主体”,不管它是什么,都和其他大模型不一样。
学习不流行的语言,理解量子物理学博士论文,重新发明算法
撇开虚构的人工智能自我意识争论不谈,克劳德3理解文本的能力是真实存在的。
例如,仅从提示词的翻译示例中学习不受欢迎的语言“切尔克斯语”(西亚语)。
它不仅能将俄语句子翻译成切尔克斯语,还能提供语法解释。
随后,切尔克斯网友对文学作品中的复杂段落、近期新闻甚至是语法和书写系统明显不同的切尔克斯方言进行了进一步的测试。结论是:
克劳德总是对语言结构有深刻的把握,能对不熟悉的词进行智能的推断,对外来词的恰当使用和合理的词源分析,在翻译中保持原文的风格,甚至在被要求时创造新词。在提供的样本数据中,只有几千个翻译对示例。
另一个例子是上面提到的关于理解量子物理的博士论文。论文作者后来补充说,在他的研究领域,除了他自己,只有一个人可以回答这个问题:用量子随机微积分来描述光子的受激发射。
另一位从事“量子计算机上的哈密顿蒙特卡罗运算”的纪尧姆·韦尔登,在克劳德3发布之前刚刚预览了他的论文。
这比Anthropic的官方账号宣布的克劳德3号(晚上10点)早了4个小时。
在《Claude 3》发布后,它立即尝试询问AI是否对这个问题有任何想法。
克劳德3给出了7种可能的选择。
接下来,他指示克劳德3使用第二种方法,他得到了整个算法的描述。他还让Claude 3用中文解释如下
面对网友的提问,Verdon声称自己是这一子领域的专家,可以负责任地说Claude 3找到了一种将经典算法转化为量子算法的方法。
此外,更多的克劳德3测试结果不断被分享。
其中一些在总结长篇文件方面胜过GPT-4。
还有一本名为《量子速度》的电子书,总结了5句金句。
以及多模式理解,识别日文收据文本和格式。
如果你现在想体验克劳德3,除了官网(很可能需要国外手机号验证),你还可以免费去lmsys大型模型竞技场,贡献人类投票数据。
在最新版的排名榜上,“米斯特拉尔-大”已经超过了前几代克劳德车型,克劳德3的结果要到下周才会有足够的数据被列入榜单。
克劳德3会在人类评估中超越GPT-4吗?
量子位将和大家一起继续关注。
OpenAI仍然有一个备份计划
有网友表示,如果大家继续炫耀克劳德有多厉害,继续刺激OpenAI,它就会发布GPT-5。大家加油。
还有人在去年3月15日GPT-4发布前发现了一则奥特曼自拍玩谐音表情包(英文“4”发音接近于“for”)的帖子,以提醒他更新。
目前,Claude 3正以如此强大的力量到来,OpenAI可能真的坐不住了。
最准确的账户是Jimmy apple,他发布了最新消息(上周他准确地预测了Claude 3将于本周发布)。他认为OpenAI发布下一代模型的风险/回报判断可能会受到Claude 3的影响。
刚刚从OpenAI辞职的开发者关系主管洛根·基尔帕特里克(Logan Kilpatrick)也证实,在与网民互动时,本周将有重大事件发生。
至于GPT-4.5、Q*、Sora开放式测试,还是直接测试GPT-5?
OpenAI的下一款产品会让克劳德黯然失色吗?
欢迎在评论区留下你的意见。