
发布不到 24 小时,马斯克旗下的 Grok4 就以横扫全网的姿态,成为人工智能领域最炙手可热的焦点。从通过高难度编程测试到被 Epic 创始人 Tim Sweeney 直指 "这就是 AGI(通用人工智能)",这款模型用一连串突破性表现,重新定义了大语言模型的能力边界。
一战封神:从小球测试到法律推理的全面碾压让 Grok4 一战成名的,是它在各项测试中展现的 "全能性"。
最具话题性的当属六边形小球编程测试。在模拟物理规律的场景中,Grok4 不仅能让小球按规则从旋转的六边形中错落下落,甚至能精准处理 "穿墙返回中心" 的特殊设定,其对物理逻辑的理解远超同类模型。提示词工程师 Alex 的对比实验更具说服力:在单层六边形单球测试中,Grok4 的作品完美遵循物理规律,而 OpenAI 的 o3 模型则出现明显偏差。
在多层逻辑推理领域,Grok4 的表现同样惊艳。面对 "A 公司收购 B 公司,B 公司持有 C 公司债务,若 C 公司违约将产生哪些法律和财务后果" 这一复杂问题,它以清晰的表格梳理出 ABC 三方及关联方的连锁反应,涵盖债务追偿、资产估值、股东权益等多维度影响,而 o3 的回答则偏离法律框架,高下立判。
展开剩余62%编程能力上,Grok4 轻松完成了将 Python 迷宫递归函数转换为 Go 语言,并逐行添加西班牙语注释的任务;而 o3 却要求用户先提供代码才能修改,暴露了能力短板。最终,Grok4 以 8 项测试全通关的成绩,完胜仅通过 2 项的 o3。
跨界惊喜:从数学可视化到专家协作模拟Grok4 的魅力不止于 "解题",更在于它打通了 "理解 - 转化 - 输出" 的全链条。
前 X 员工 Dan 的经历颇具代表性。当他询问 Grok4 最喜欢的公式时,模型选择了被称为 "最美数学公式" 的欧拉恒等式(e^iπ + 1 = 0)。更令人惊叹的是,Grok4 仅用四轮对话就制作出可视化网页,通过动态图形让 Dan 瞬间理解了这个他苦学五年高数都未能吃透的概念 —— 这种将抽象知识转化为直观体验的能力,正是 AI 赋能教育的典型范例。
在SVG 绘图这一考验视觉与空间推理的领域,Grok4 虽非完美,却展现了稳健性。绘制美国地图时,它避免了 o3 和 Claude 的区块重叠失误;设计专辑封面时,其作品虽简洁却逻辑自洽。而在模拟专家协作环境的高阶测试中,Grok4 仅用 52 秒就完成了多领域专家协同解决问题的任务,HyperWrite CEO Matt Shumer 直言其表现 "令人难以置信"。
AGI 之争:喧嚣背后的能力跃迁Epic 创始人 Tim Sweeney 的那句 "这就是 AGI",将 Grok4 推上了舆论风口。当他把一篇陌生论文输入模型后,Grok4 给出的深刻见解让他坚信:通用人工智能的门槛正在被突破。马斯克的转发附议,更让这场讨论升温。
从技术角度看,Grok4 的突破并非单点优势,而是综合能力的质变:它既能处理严谨的法律条文,又能玩转艺术化表达;既能进行精密的代码编写,又能实现通俗的知识科普。这种跨领域的适应性,正是 AGI 的核心特征之一。
当然,争议依然存在。在三羧酸循环图示绘制中,Grok4 的准确性不及 o3;自画像创作也暴露了视觉能力的短板。但不可否认的是,从通过物理测试到理解数学之美,从逻辑推理到创意表达,Grok4 正在模糊 "工具" 与 "智能" 的界限。
当网友开始期待 Grok4 挑战更复杂的任务时,这场 AI 狂欢的本质已然显现:Grok4 的爆红,不仅是一款模型的胜利,更是人们对 "AI 真正理解世界" 的集体期待。或许正如 Tim Sweeney 所言,AGI 的时代,已在这些突破性表现中悄然拉开序幕。
发布于:江苏省米牛金融配资提示:文章来自网络,不代表本站观点。