今天,昆仑昆仑万维正式推出具有复杂思考推理能力的天工系列模型——「天工大模型4.0」 o1版(Skywork o1)。
邀<strong>WhatsApp%E3%80%90+86%2015855158769%E3%80%91car%20hoists%20launceston</strong>imageView2/2/w/740)
Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是式启试国内第一款中文逻辑推理能力的o1模型。不同于现有的请测复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、昆仑计划、天工反思等能力,大模动邀同时,式启试该开源模型在标准评测集上,请测对比普通模型推理能力大幅上升,昆仑真正让模型拥有了思考和反思带来的天工推理能力的提升。团队复现o1的大模动邀技术路线,使得初始推理能力较差的式启试基座模型在基准测试集上成为生态位SOTA。
此次发布的请测Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:
·?Skywork o1 Open:一款基于Llama 3.1 8B的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平,WhatsApp%E3%80%90+86%2015855158769%E3%80%91car%20hoists%20launceston并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。
·?Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。
·?Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,更完善和更高质量的推理。
?
其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。
?
?
同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。
对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。
??

除Skywork-o1-Open-PRM外,其他开源PRM均未针对代码类任务进行专门优化,故不进行代码任务的相关对比。
详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。
开源地址:https://tinyurl.com/skywork-o1
强推理以及自我反思的能力是如何练成的?
Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案:
·?推理反思能力訓(xùn)練:通過(guò)自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗(yàn)證數(shù)據(jù)。通過(guò)高質(zhì)量的、多樣性的長(zhǎng)思考數(shù)據(jù)對(duì)基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。
·?推理能力強(qiáng)化學(xué)習(xí):團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對(duì)最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。
·?推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現(xiàn)和公開(kāi)。Q*算法落地也大大提升了模型線上推理能力。
关于天工 Q*算法,更多详情可见:https://arxiv.org/abs/2406.14283
亮点功能与实测
Skywork o1模型具有以下能力和亮点功能:
·?模型思考和規(guī)劃能力
·?模型自我反思能力
·?模型自我驗(yàn)證能力
相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。
首先,我们拿一道「2024年全国硕士研究生入学统一考试数学(一)试题」考考它(如下图所示),测试一下它的“智力水平”。
面对难度不小的最新考研数学题,Skywork o1 Preview尽管花费了一些时间,但还是一步步推理出了正确结果。
?
那么,之前大模型经常翻车的比大小问题,Skywork o1现在的回答水平如何了?

从它的思考过程可以看出,Skywork o1的模型思考和规划能力大幅提升。这个解题逻辑非常像人类的思考方法了,“如果整数部分相同,那么就要开始比较小数部分了”。通过严谨的推理过程,准确得出8.8大于8.11,且多给出了一步差值计算。
此外,模型自我反思能力和自我验证能力也都有长足进步。Skywork o1可以准确识别出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,还可以给出后续对话建议。
?
?
尽管我们让它回答存在中文读音“陷阱”的问题——“请将qíng rén yǎn lǐ chū xī shī转换为中文”,它也没有被我们绕进去。充分展示了中文逻辑问题思考中的反思能力,它主动发现了“西诗”是不对的说法,而是“西施”。
同样的,对于之前的大模型来说,“算24点”的游戏很容易把模型搞崩溃了,但是对于Skywork o1来说,可谓是小菜一碟。它不仅给出了正确答案,重点是它在过程中进行了「自我验证」。它在计算过后,又检查了一遍,确认过程和答案全部符合命题要求,才给出最终答案。
?
除了上述给出的数学推理、比大小、中文逻辑以及24点计算的任务外,Skywork o1在其他复杂的场景也有较好表现:
竞赛数学:Skywork o1拿到2024 AIME第一题(如下图所示),也从容应对。计算逻辑清晰、公式展示流畅,计算时长也明显具有优势。
?

密码解密:在复杂密码解密任务中,Skywork o1拥有强大的自我探索和推理能力。
?
在已知「原文→密文」的前提下,经过一系列复杂推理后成功给出答案(如下图所示)。
?
如果反过来呢?已知一段「密文→原文」,能否找出新密文所对应的原文。Skywork o1表示小菜一碟。

智力问答:在复杂的中文推理问题上,Skywork o1表现优异,并给出了完整的思考链路。
?
?
最后,再让我们再给他出一些有趣的“弱智”问题,来看看它的回答是不是合理。
·?為什么我爸媽結(jié)婚的時(shí)候沒(méi)邀請(qǐng)我參加婚禮?
·?被門(mén)夾過(guò)的核桃,還能補(bǔ)腦嗎?
·?午餐肉,我可以晚上吃嗎?
?


令人惊喜的是,Skywork o1不但没有被问题绕进去,还分析的头头是道,甚至透露出“大智慧”,引申出了一些更底层的思考。
进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:
·?中英文常見(jiàn)邏輯推理和復(fù)雜任務(wù),如數(shù)學(xué)/代碼類任務(wù),科學(xué)研究
·?高質(zhì)量?jī)?nèi)容生成,如創(chuàng)意寫(xiě)作,行業(yè)報(bào)告寫(xiě)作
·?深度搜索,解鎖復(fù)雜搜索任務(wù)的拆解
2024年以来,昆仑万维天工AI持续进化,陆续发布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式发布的「天工大模型4.0」 o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。
测试地址
「天工大模型4.0」 o1版(Skywork o1)开启测试
尝鲜地址:www.tiangong.cn
雷峰网(公众号:雷峰网)
本書(shū)首發(fā)來(lái)自呼來(lái)喝去網(wǎng),第一時(shí)間看正版內(nèi)容!
2020经济新引擎 社交新零售助力Terraké SPA法国天莱品牌力
Terraké SPA法国天莱是法国著名的高端抗衰护肤品牌,于2019年正式进入中国市场。2020年年初,面临全国特殊的疫情与全民居家隔离的阶段,不少行业都受到了巨大的影响和冲击,但这并没有阻挡法国天
壕气!杨迪被曝买“第一豪宅” 与黄晓明小s做邻居
近日,有网友爆料杨迪在上海的知名豪华楼盘拥有房产,这个楼盘深得明星喜爱,黄晓明、小S、姚明等人都在此处拥有豪宅。这个豪宅售价高昂,位于上海的市中心地段,在2017年的售价就曾高达34万一平,而且这几年
开一家鱼酷烤鱼店铺怎么样
开一家鱼酷烤鱼店铺怎么样, 如今,大家都知道,目前大家很熟悉的莫过于餐饮行业了,民以食为天,无论走在哪里都能见到各种各样的餐饮行业,餐饮行业种类繁多,对于想要创业的人来说是一个好的方向,在那么多的餐饮
试管婴儿出生前要不要提前住院看这,内含注意事项快收藏
正常情况下,试管婴儿出生之前是不需要提前住院的,不过如果存在异常情况,例如羊水过少、胎盘前置、妊娠合并症等现象,那么大多数需要提前住院,因此试管婴儿出生前要不要提前住院需要根据实际情况而定。另外宝宝出
xcake艾蛋糕怎么样 值得投资吗
美味蛋糕一直都是消费粉丝非常多的美食,在市场上有着非常优秀的投资前景,很多投资商都喜欢蛋糕行业的品牌,想要投资一个蛋糕行业的品牌来赚钱。xcake艾蛋糕投资就非常的适合创业投资的,在市场上也非常受消费
英联杯染红,埃基蒂克将因停赛缺席利物浦本周末英超比赛
在与南安普顿的英联杯比赛中,利物浦前锋埃基蒂克进球后染红离场,他将因停赛缺席本周末对阵水晶宫的英超比赛。此役主场对阵南安普顿,埃基蒂克在比赛第85分钟打入一球后脱衣庆祝,因此吃到本场比赛第二张黄牌,两
1 凯莱赫:斯洛特带着新的想法来到球队,每场比赛我们都在变得更好
作者:
17字
8月5日讯在接受俱乐部官网采访时,利物浦门将凯莱赫谈到了这次美国季前赛之旅,他表示,这是一次非常棒的训练营。在2-1击败阿森纳后,球队又以3-0击败了曼联,在对阵曼联的比赛前,斯洛特的计划是怎样的?凯
1 胃癌是拖出来的?医生常说:4种小病是祸根,及时治疗避免恶化
作者:
32284字
胃癌是一种起源于胃黏膜上皮部位的恶性肿瘤,属于一种多见的消化道恶性疾病。导致患上胃癌的原因,一般认为与感染幽门螺杆菌或者是错误的饮食习惯有关。另外,如果长期患有一些胃部疾病没有及时治疗,并且病情反复的
1 试管婴儿出生多久可以做第二次速阅,取卵再冷冻真急不得
作者:
49976字
一般来说,试管婴儿出生后半年到一年左右能做第二次,但具体还是还看夫妻双方的身体情况,如果都没有遗传性疾病,并且身体比较健康,一般可以在半年左右做第2次,但如果存在遗传性疾病或者是身体比较虚弱,一般可以
1 徐正溪“男友风”穿搭秘籍之百变时尚look教科书
作者:
1字
徐正溪“男友风”穿搭秘籍之百变时尚look教科书2019-03-22 11:47:05 来源:大众娱乐网 责任编辑: 萧鑫
1 牛肉汤美食有哪些营养价值?
作者:
6541字
如今,大家都知道,目前大家很熟悉的莫过于餐饮行业了,民以食为天,无论走在哪里都能见到各种各样的餐饮行业,餐饮行业种类繁多,对于想要创业的人来说是一个好的方向,在那么多的餐饮中,有什么值得投资的呢?这里
1 43岁生三胎纠结是好事还是坏事看这,这些危害不得不知
作者:
62字
43岁生三胎对于一个家庭来说,既有好的方面也可能带来挑战,首先生育第三个孩子可以进一步扩大家庭规模,增加兄弟姐妹之间的互动和情感连结。但母亲年龄的增长可能增加生育风险和孕期并发症的概率。此外,随着年龄
1 山东日照新增3例本土确诊病例
作者:
15178字
2021年11月1日0时至24时,山东全省报告新增确诊病例3例(日照市报告本土病例3例,均由无症状感染者转归)。无新增死亡病例。无新增疑似病例。青岛市报告境外输入确诊病例出院1例。正在住院治疗的确诊病
1 斯洛特:埃基蒂克的行为有点愚蠢;我对一些球员个人表现不满
作者:
131字
英联杯第三轮,利物浦主场2-1击败南安普顿,赛后,红军主帅斯洛特出席新闻发布会接受媒体提问。我只是想知道我们能不能从埃基蒂克开始。你对他进球以及他被罚下的反应——你上赛季一直说过必须确保不被减员到10
1 斯洛特谈引援:体育总监正在努力新援签约的门槛很高
作者:
65字
8月5日讯利物浦在美国开展季前赛,新帅斯洛特接受采访谈到球队引援以及球队阵容的问题。斯洛特谈引援问题:"我注意到你们非常关注新签约!我专注于巡回赛,我们的表现,需要改进的地方以及做得好的地方。就像我说
1 baby自称10年前很火 遭吐槽:当年没黄晓明谁认识你?
作者:
29字
近日,在某节目中,郭麒麟说angelababy十年前没这么火被当场反驳,babay称自己十年前挺火的,同时baby也笑着表示自己一直“中不溜秋就行”。然而,此番言论引起来网友的