对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
11月18日消息,对标代推第日前,布新国内人工智能公司月之暗面推出的理模Kimi国产大模型正式发布k0-math。
k0-math是型中Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,考高考考通过模拟人脑的研全思考和反思过程,大幅提升解决数学难题的对标代推第能力。
据了解,布新在多项数学基准能力测试中,理模k0-math的型中表现能对标OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。
根据官方公布的考高考考结果,在中考、研全高考、对标代推第考研以及包含入门竞赛题的布新MATH等4个数学基准测试中,k0-math初代模型成绩超过o1-mini和o1-preview模型,理模拿下第一。
在业界最常使用的数学能力基准测试MATH 中,k0-math模型得分93.8,超过 o1-mini的90分和o1-preview的85.5分。
官方表示,k0-math这一成绩仅次于暂未开放使用的o1完全版94.8分。
据介绍,常规模型的设定目标是尽快提供问题的答案,但k0-math不同,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。
另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。
月之暗面表示,这些局限性既是机遇,也是挑战,预计将在下一阶段的模型迭代中逐步得到改善。
相关文章
七彩虹Z890主板即将更新:酷睿Ultra 200S性能提升超10%
12月24日消息,酷睿Ultra 200S系列发布之后,Intel一直在与主板厂商通力合作,不断优化完善,修补Bug,提升性能。作为Intel的钛金合作伙伴,七彩虹也为酷睿Ultra 200S系列处理2024-12-2511.98万的MONA M03不够卖!何小鹏致歉:延迟交付每天补偿150元
11月7日消息,今晚,小鹏汽车举行小鹏P7+上市发布会,小鹏汽车董事长、CEO何小鹏首先谈到了小鹏MONA M03延迟交付的问题。何小鹏向延迟交付的MONA M03车主致歉,“小鹏MONA2024-12-25巴萨vs西班牙人首发:莱万、拉菲尼亚、奥尔莫先发,普阿多登场
11月03日讯 23点15分西甲第12轮迎来同城德比战,巴塞罗那主场迎战西班牙人。巴萨首发:13-佩尼亚、2-库巴西、3-巴尔德、5-伊尼戈-马丁内斯、32-赫克托-福特、8-佩德里、17-卡萨多、12024-12-25萨拉赫:榜首是利物浦该在的位置 不会忘记在安菲尔德进球的感觉
11月3日讯在10轮过后登顶积分榜榜首后,利物浦前锋萨拉赫在社交媒体发文,表示这是俱乐部应该在的位置。萨拉赫这样写道:“积分榜榜首是这家俱乐部应该在的位置,就是这样。所有的球队都可以赢得比赛,但最终冠2024-12-25- [流言板]23号秀AJ-约翰逊G联赛9中5三分3中2,得到12分5板4助由篮球资讯发表在篮球资讯 50212月23日讯 今日G联赛,雄鹿下属球队100-96险胜墨西哥城队长队。本场比赛,雄鹿球员、今年2024-12-25
[流言板]威少目前命中率24.4%,是目前出手40+次球员中最低的
[流言板]威少目前命中率24.4%,是目前出手40+次球员中最低的由篮球资讯发表在篮球资讯 50211月02日讯 今日NBA常规赛掘金对阵森林狼的比赛已经结束。全场比赛,森林狼119-116战胜掘金。2024-12-25
最新评论