在不断发展的科技世界中,埃隆·马斯克的努力很少不引起轰动。在他呼吁停止训练比GPT-4更强大的LLM几周后,马斯克打出了他的招牌招式:做他所反对的事情。这就是xAI——马斯克的最新心血结晶,以及它的全新LLM Grok,于上周六宣布。
这一举措成为头条新闻,不仅因为马斯克的参与,还因为该公司成功从领先的初创公司和科技巨头中招募了一批顶尖人工智能研究人员。xAI以AI设计为“理解世界”的诱人魅力进行推广,但至少直到上周,xAI对其运作的“如何”和“什么”仍然神秘莫测。
这是另一个挑战现状的经典马斯克举动,还是只是一个被前辈聊天机器人的巨大热潮所炒作的过度炒作的聊天机器人?
优点
持续的实时知识流
能够访问整个Twitter的内容使Grok成为一个潜在的改变游戏规则者。正如xAI所强调的那样,Grok将拥有“对世界的实时知识”,呈现人工智能研究人员所称的人类反馈强化学习(RLHF),处理有关当前事件的新闻和各种评论。
通过从各种观点了解事件,并吸收Twitter社区的注释—本质上是注解—Grok将从多方面了解世界。
根据最近的研究,人们已经改变了他们的行为,首先在社交媒体上寻找新闻,然后再转向主流媒体。Grok与Twitter的整合可能进一步加快这一过程,为用户提供即时评论、背景信息,以及—如果执行得当—即时事实核查。如xAI所强调的,实时知识功能确保Grok始终了解世界的脉搏,使其能够提供及时和相关的回应。
趣味模式:埃隆的梦想成真
埃隆·马斯克对一个热爱趣味的人工智能的愿景似乎已经通过Grok的所谓“趣味模式”实现。这一功能允许LLM编制笑话,提供幽默而又事实准确的回应,并为用户提供一个奇特而轻松的对话体验。
现有LLM(如ChatGPT)的一个挑战是,一些用户觉得它们过分消毒,以确保政治正确性,可能使互动不够有机和自发。此外,一些本地化的LLM在长时间互动方面表现不佳。Grok的趣味模式承诺填补这一空白,可能成为那些想要放松的人的有趣消磨时间的选择。
这个概念并非全新,因为Quora的Poe通过其经过精心调整的聊天机器人提供类似的服务,每个都拥有独特的个性。然而,将这一点嵌入到具有Grok能力的LLM中将体验提升到一个新水平。
原生互联网访问
Grok的另一个区别在于能够访问互联网而无需插件或其他模块。
尽管其浏览能力的确切范围尚待澄清,但这个想法令人心动。想象一下一个能够实时交叉引用数据以提高事实准确性的LLM。再加上它对Twitter内容的访问,Grok可能会彻底改变用户与人工智能的互动方式,因为他们知道他们收到的信息不仅基于现有的训练数据,而且是不断更新和验证的。
多任务处理
据报道,Grok能够同时处理多个对话,允许用户同时进行多个对话。用户可以探索各种话题,在一个线程上等待回应,并继续进行另一个对话。
这个聊天机器人还提供对话分支,让用户在不打扰主要讨论的情况下深入探讨特定领域,并提供所有对话分支的可视指南,方便用户在各个话题之间进行导航。
Grok还提供内置的markdown编辑器,让用户下载、编辑和格式化Grok的回应以供以后使用。这个工具与对话分支结合在一起,确保用户可以处理特定的对话分支并无缝重新参与。
最小审查:自由言论的人工智能
埃隆·马斯克对Grok的愿景很明确:一个不回避说出自己数字化思想的人工智能。
尽管所有主要的人工智能聊天机器人都设置了防范措施,以避免潜在的伤害或错误信息,但有时会感到限制。用户已经注意到ChatGPT、Llama和Claude等模型可能会在谨慎方面有所保留,以避免潜在的冒犯。然而,这可能会过滤掉无害或真正需要的答案。
Grok在回应方面被允许更多的自由,因此可能提供更真实和不受限制的对话体验。正如xAI所强调的,Grok的设计使其能够回答其他人工智能系统可能回避的激烈问题。
显然,这种人工智能提供了独特的实时信息、幽默、准确性和自由的结合。然而,与任何创新一样,也需要考虑其中的挑战和潜在风险。
缺点
匆忙开发和有限训练
从一开始,Grok的快速开发引起了一些人的关注。正如xAI所述,“Grok仍然是一个非常早期的测试产品—这是我们在两个月的训练中所能做到的最好。”在LLM的世界中,两个月和330亿参数听起来像是杯水车薪。
以OpenAI为例,他们已经公开透明地介绍了他们的开发过程,提到,“我们花了六个月不断调整GPT-4。”开发时间表的差异表明,Grok的开发可能是为了跟上人工智能炒作的浪潮。
此外,xAI对Grok训练过程中使用的硬件范围保持沉默,留下了推测的空间。
一切都在于参数
对于不熟悉的人来说,LLM中的参数代表模型可以容纳的信息或知识量。它们表示人工智能的有效大脑容量,决定了它处理和生成信息的能力。乍看之下,拥有330亿参数的Grok可能听起来令人印象深刻。
然而,在竞争激烈的LLM领域,它只是另一个参与者。事实上,它的参数数量可能不足以满足复杂的企业需求和像ChatGPT、Claude和Bard这样的巨头设定的高质量输出作为黄金标准。
部分低参数数量的原因是Grok未能在HumanEval或MMLU等关键基准测试中击败其他主流模型的原因:

来源:xAI
除了参数数量,还存在上下文处理的问题——基本上是指一个AI聊天机器人能够在一个输入中理解多少信息。在这方面,Grok并不特别出色。根据xAI的说法,Grok理解8,192个标记的上下文,但GPT-4处理高达32,000个标记,而Claude甚至可以处理高达100,000个标记。OpenAI的新GPT-4 Turbo达到了128,000个标记的上下文窗口。
创新的代价
成本是评估任何产品价值的关键因素,Grok也不例外。愿意支付每月16美元与其互动的用户可以使用这个聊天机器人。
像Claude 2和ChatGPT配备了GPT-3.5 Turbo这样的免费产品,Grok可能很难推销—特别是考虑到这些免费模型已经因其准确性而备受推崇,在某些基准测试中已经超过了Grok。
此外,即使是在最强大的LLM领域,GPT-4也承诺比Grok更好,而且具有广泛的可访问性、多模态和强大的优势。
Grok的推出是否主要是为了增加Twitter Blue的订阅,从而增加Twitter的收入流?
这些问题突显了Grok在确立自己作为LLM领域的主要参与者所面临的挑战。而且它的缺点并不仅仅体现在价格标签上。
丑陋的一面
模仿虚构
基于一部流行小说中的虚构人物来构建LLM,无疑是一种创造性的选择。虽然虚构人物的魅力可能很吸引人,但在一个越来越依赖准确信息的世界中,这会带来固有的风险。寻求严肃问题或建议的用户可能会与一个旨在模仿喜剧性角色的系统产生分歧。
此外,随着虚构与现实之间的界限变得模糊,人们担心用户会误解玩笑或讽刺性回应为事实信息。在一个每一条信息都被剖析和分享的数字时代,这种误解的后果可能是广泛的。特别是当涉及到多种语言时。
虽然幽默和机智有其位置,但在用户寻求关键见解时,平衡至关重要。将幽默置于准确性之上可能会带来娱乐效果,但也会削弱LLM应该提供的可靠信息的本质。
过度承诺,交付不足
埃隆·马斯克关于Grok的宏伟承诺为人们树立了极高的期望。然而,深入挖掘发现炒作与现实之间存在潜在的不匹配。传统的LLM训练方法受到其训练数据的限制,突显了一个关键的局限性:它们无法真正涉足“超级人工智能”领域。 与其他LLM巨头相比,Grok的训练参数为330亿,开发时间为几个月,似乎显得微不足道。虽然一个富有趣味的虚构人物的概念听起来很吸引人,但期望它使用标准训练方法取得突破性成果可能有些牵强。 人工智能社区并不陌生于夸大其词,但随着该领域的快速发展,用户有必要筛选炒作。实现“超级人工智能”地位是一个巨大的挑战,而以Grok目前的配置和训练情况来看,它很可能不符合资格。 事实上,为了证明Grok的强大,埃隆·马斯克将其对话聊天机器人与一个小型用于编码的LLM进行了比较。可以说,这并不是一场公平的较量。
错误信息的威胁
LLM具有强大的功能,但它们并非无懈可击。在缺乏严格标准的情况下,辨别事实和虚构变成了一个艰巨的任务。最近的历史提供了警示故事,比如基于4chan数据训练的聊天机器人,甚至是微软早期的聊天机器人Tay,它们不仅散布仇恨言论,还成功地伪装成真实人物,愚弄了大量的在线观众。 这种错误信息的传播并非孤立的。自从埃隆接管以来,Twitter的形象受到了打击,因此人们可能担心Grok是否能够持续提供准确的信息。LLM有时会陷入幻觉,如果这些扭曲被当作真相消费,其连锁反应可能令人震惊。 错误信息的潜在威胁就像一颗定时炸弹。随着用户越来越倾向于依赖人工智能获取见解,错误信息可能导致错误的决策。为了成为可信赖的伙伴,Grok必须小心行事,确保其幽默的态度不会掩盖真相。缺失的多模态能力?
在蓬勃发展的人工智能世界中,Grok的纯文本方法似乎已经成为过去的遗物。虽然用户需要为Grok的服务付费,但他们可能会合理地质疑为什么要这样做,特别是当其他LLM提供更丰富的多模态体验时。 例如,GPT-4-v已经在多模态领域取得了进展,拥有听觉、视觉和语音的能力。Google即将推出的Gemini承诺提供类似的功能套件。在这种背景下,Grok的提供似乎显得平淡无奇,更多地引发了人们对其价值主张的质疑。 这是一个竞争激烈的市场,用户变得越来越有眼光。如果Grok希望在市场上占据一席之地,它需要提供真正卓越的东西。目前看来,竞争对手提供了更强大的功能和更高的准确性,而且通常是免费的,这对Grok来说是一项艰巨的任务。结论
Grok的推出引发了人们的兴奋,但也引起了相当多的怀疑。其简陋的MVP(最小可行产品)方法允许根据用户反馈进行快速迭代和改进。但是,来自拥有更多资源的人工智能巨头的竞争构成了一场艰巨的战斗。 为了取得成功,Grok需要具有创新和实用性的能力。在竞争激烈的市场中,仅有娱乐价值是不够的。人工智能专家们不会被可爱的狗狗表情包分心。 最终,Grok的命运取决于创新和实用性的平衡。尽管健康的怀疑是合理的,但完全否定它可能还为时过早。Grok可能会开拓新领域,也可能最终成为人工智能演进史上的一个注脚。无论如何,其非传统的起源保证了Grok将成为人工智能发展故事中一个引人入胜的篇章。 由Ryan Ozawa编辑。免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。