GPT-5很强,但也很无趣。_ZAKER新闻
GPT-5很强,但也很无趣。_ZAKER新闻
责编:郎清湘邹渝
千呼万唤始出来,奥特曼终于端出来了全世界网友都心心念念的 GPT-5。不到一天的时间,OpenAI 的发布推文就获得了 300 万阅读,3 万点赞;世超的朋友圈、群聊,也全是被 GPT-5 刷屏的。虽然大家伙都喊着 OpenAI 越来越拉了,再也不用了,但每次他们发布新模型,AI 圈都得震一下,关不关注 AI 的都会来聊上一嘴。果然,大家还是忘不了 ChatGPT。。所以,GPT5 到底咋样?用奥特曼的话来说,这是他们做过的最智能的模型,还说在任何领域,GPT-5 都达到了博士级别的水平。但从网友的反应看,不少人都在对这个船新版本 GPT 发出锐评,抱怨这玩意根本就不是 GPT-5,还不如 grok。Polymarket 上还发起了一个叫 " 哪家公司在八月末拥有最顶级的 AI 模型 " 的竞猜,结果就在发布会刚开完时,谷歌和 OpenAI 的赔率来了个两极反转。最搞的是,在发布会的时候,OpenAI 放了张柱状图,在比较大模型写代码的准确度时,52.8% 画得比 69.1% 还高,小学生都画不出来,这一波黑子白子都洗不了了。。但我觉得吧,网友反应这么大,主要还是奥特曼吹得太狠了,还没发布的时候,AI 圈还没震,自己就开始震上了。该说不说,GPT-5 的跑分是挺强的,在大模型竞技场 LMArena 上夺得了大满贯,全方位第一。但到底好不好用,只有用户亲身体验过才知道。在体验了一圈 GPT-5 后,世超得出的结论是:没那么惊艳,不如叫 GPT4.6。首先,让大家最称赞的,还是 GPT-5 的编程能力。咱就和竞技场榜二 Gemini 2.5 pro 掰头一下。首先我让它模拟了下我们高中就学过的弹性碰撞。提示词:我是一名高中生,通过物理模拟让我理解弹性碰撞。这家伙确实做得不错,不仅在球上把速度方向标注出来了,还能在碰撞中丝滑改变球的大小。Gemini 做得也还行,但总体感觉丝滑度上不如 GPT,我一改变大小,球就卡住了,让我们强迫症非常不适。接着,我掏出了我最爱的多米诺骨牌,这玩意我试过很多 AI,基本都很难做出来。。首先是 GPT-5,这牌做得还真有点东西,非常的有动感。。提示词:模拟多米诺骨牌的物理过程,左键放牌,右键倒牌。Gemini 这边呢,就理解得不是很好了,虽然也能倒吧,就是给哥们把牌挂到天上去了。。当然这只是几个好的案例,也有比较搞笑的时候。。我简单描述了下需求,让它生成了一个开飞船的游戏,没别的,主要是想开飞机。它写出来的,只能说很一般,尾焰和动力根本不是一个方向,我直接出门即坠机。。除了这些,其他更新基本都是对现有能力的进一步优化。OpenAI 这次的更新似乎就是朝着 " 节能高效 " 这个方向去的,完全不同于之前 GPT3.5 到 4 那样飞跃式的更新。根据 OpenAI 官方博客的介绍,GPT-5 在思考和输出上都更加高效。它在保证准确率的同时,思考时间更短,输出的 Token 数量也减少了 50% 到 80%。而且,GPT-5 对困扰大伙已久的幻觉问题也出了狠手,它的事实错误率比 GPT-4o 低了 45%,思考时的事实错误率更是比 GPT-4o 低了约 80%。也就是说,GPT-5 变得更加诚实了。它清楚自己的能力边界,遇到不会的问题会直接说 " 不会 ",做不到的事情会直说 " 做不到 ",而不是像以前一样一本正经地胡说八道。当然,对于俺们编辑来说,模型最重要的应该是写文章的能力,毕竟能帮我们上班(当然不是)。但我体验了一圈下来,GPT-5 给我的感觉,就像一个靠灵性吃饭的诗人,突然间失去了灵感。。它在逻辑、推理、数学、编程这些需要严密思维的领域,达到了前所未有的高度,但文本创作这块,它却显得有些力不从心。我先让 GPT-5,撰写了一段夸自己的文字,说是得有生活气息,不能太尬。结果我看了下,给我写了首诗,略微肉麻。。接着,我们来看看 Gemini 怎么夸自己。(因为我让 Gemini 夸 GPT5,它拒绝了)虽然说文无第一,但我还是感觉 Gemini 写的,AI 味道更淡一些。如果要量化的话,你数一下两段话破折号和引号的数量,你就懂了。虽然发布会上说,GPT-5 大幅减少了幻觉。但结果是它的文本变得过于保守和安全,那种信手拈来的奇妙比喻,那种让人拍案叫绝的独特视角,好像少了一些。此外,网上有很多人控诉,在发布 GPT-5 的同时,OpenAI 还强行删除了 5 之前的其他模型。。现在,你打开 GPT 的界面,在模型选择的下拉菜单里,你基本只能看到 GPT-5 选项。只能说,这操作确实有点离谱。毕竟国内的模型都能让我们决定是否 " 深度思考 ",有时候需要又快又准,有时候也需要多而广,现在 OpenAI 却直接替用户做主,把所有选择权都收回去了。当然也有些人说好,毕竟有些人是选择困难症,就喜欢别人帮他做决定,这就仁者见仁了。但世超发现,ChatGPT 的 Pro 会员还是能使用之前的旧模型的,属于是有点区别对待了。。(如果你希望用回 GPT-4o/4.5,在头像 - 设置里勾选显示传统模型,就可以切回传统模型了)不仅如此,官方的偷偷降智行为,也不是很厚道。。就那个奥特曼在发布会上展示的做音乐的例子,如果你的 GPT-5 被降智了,你是复刻不出来的,感兴趣的差友可以去试试。。总的来说,比起基础能力的巨大提升,这次 OpenAI 的更新更值得关注的是其 " 实用第一 " 的策略。一方面,这可能意味着大模型在基座性能升级上遇到了一定的瓶颈。另一方面,这种方向的调整确实有意义。毕竟,在过去几年里,大模型为了追求性能的狂野升级,导致幻觉、成本等 AI 常见问题一直被放在次要位置。如今,随着 OpenAI 的周活跃用户已经达到 7 亿,在性能升级有限的情况下,是时候好好打磨一下产品体验了。但大伙还是需要一些期待的,毕竟很久没有过一个开天辟地的新模型了。所以下一个被寄予厚望的模型是谁呢?就决定是你们了,DeepSeek R2 和 Gemini 3.0!撰文:不咕koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:赵进喜
TOP1热点:⚡️⚡️逆 天 索 尼 克⚡️⚡️
可能是村里有人说闲话,也可能是在学校上厕所时被别的女孩看到了并传了出来,王梓淇在上学时常遭受白眼和欺负。让她印象最深的是读初二的一天,有个男生把她推下了河沟,弄得她满身泥垢。“我被嘲笑了半天,他们还说了很多难听的话,动不动就有人打我。而且小地方一传十、十传百慢慢就都知道了。”说到这里,王梓淇陷入了停顿,她觉得自己精神上受到的伤害并不比身体的疾病轻多少。。
TOP2热点:“有些人天生就是主角“
政知君注意到,高龄“老虎”涉嫌利用影响力受贿罪的并不是只有盛光祖一人。
因为病情,她每个月需要吃几百元的抗雄性激素药物,加之每月四五百元的房租,和日常生活费用,漂泊十年的王梓淇说,自己就攒下来两三万元。
TOP3热点:【魔王杯】起床战争最强三国杀!
没过多久,“沙皇之狼”又测试了一款新型反无人机系统,用来干扰乌军的侦察无人机,据说效果很不错。而此时,距离“沙皇之狼”成立不过短短几个月时间。
TOP4热点:【官方投稿】人マニア - 重音テト
有人留言问王梓淇去男厕还是女厕?怎么上的厕所?这些问题令她比较无语,只能说自己从有意识开始就是按照女性的标准来生活。
TOP5热点:
在这期间,王梓淇的一位合租室友王芳(化名)记得,王梓淇的生活十分简单朴素,甚至有些艰苦。王芳时不时会在发了工资后用支付宝偷偷转几百块钱贴补她。“如果微信给她是不会要的,她一直都挺有尊严的活着。”王芳表示自己是经朋友介绍和王梓淇在一起开始合租。
不可否认,“沙皇之狼”的作战能力比起瓦格纳不值一提,更多时候是跟在大部队后面“舔包”,没有太大的危险性。以至于被普里戈津嘲讽为“伪装的硬汉”。
TOP6热点:蛋仔派对:一个奇怪的梦
虽然和王梓淇已不在一个地方,但王芳时常会用视频电话给王梓淇加油打气。在王梓淇向媒体求助时,王芳在视频电话里对着记者哭了起来。她认为王梓淇的苦日子终于快到头了,所以才这般激动。
TOP7热点:蛋仔派对:一个奇怪的梦
去年11月,罗戈津接受采访时提到,“沙皇之狼”已经测试成功一款供迫击炮使用的智能系统,只需要输入相应数据,就可以在手机和平板电脑等单兵终端进行火力解算,提高迫击炮打击的精准度和速度。
2022年1月,贵州省政协原党组书记、主席王富玉因受贿罪、利用影响力受贿罪被判死缓。他获刑时已经71岁了。
TOP8热点:单亲妈妈三个孩子、名校学子两份零工 他们都靠卖血生存
2013年3月,国务院机构改革,铁路政企分开,不再保留铁道部,原铁道部的行政职责被划入交通运输部。
2011年2月,盛光祖重回原铁道部,接替落马的刘志军,出任铁道部部长、党组书记。
TOP9热点:耿爽当面戳穿美方谎言!“这次中方可以说得更直白些”
可能是村里有人说闲话,也可能是在学校上厕所时被别的女孩看到了并传了出来,王梓淇在上学时常遭受白眼和欺负。让她印象最深的是读初二的一天,有个男生把她推下了河沟,弄得她满身泥垢。“我被嘲笑了半天,他们还说了很多难听的话,动不动就有人打我。而且小地方一传十、十传百慢慢就都知道了。”说到这里,王梓淇陷入了停顿,她觉得自己精神上受到的伤害并不比身体的疾病轻多少。
往深了说,战争总有结束的一天,普京和卢卡申科也在逐渐老去,等到他们这些“政治强人”退出历史舞台,瓦格纳事件会否重演,以及继任者能否压制住这些蠢蠢欲动的武装力量,那可就不好说了。
TOP10热点:30岁心脏支架一年,我发生了什么样的变化…
被困在男女之间的身体里33年,王梓淇一直都想做一个正常人。记者问她,如果病好了想回家还是去哪里看看?王梓淇说想去拉萨,因为没去过。