OpenAI GPT o1技术报告阅读(5)-安全性对齐以及思维链等的综合评估与思考

news/2024/9/22 15:32:41 标签: gpt, openai o1, o1模型, openai, chatgpt

 ✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

编码

我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中得分213分,排名在第49百分位,通过从o1初始化并进一步训练以提高编程技能。这个模型在2024年IOI中与人类参赛者在相同条件下竞争。它有十个小时的时间来解决六个具有挑战性的算法问题,并允许每个问题提交50次。

对于每个问题,我们的系统采样了许多候选提交,并基于测试时的选拔策略提交了其中的50个。提交是基于在IOI公开测试用例、模型生成的测试用例以及学习到的评分函数上的表现来选择的。如果我们随机提交,平均得分将只有156分,这表明在竞赛限制下,这种策略值得近60分。

在放宽提交限制的情况下,我们发现模型性能显著提高。当允许每个问题提交10,000次时,模型得分为362.14分——超过了金牌阈值——甚至没有使用任何测试时的选拔策略。

最后,我们模拟了由Codeforces主办的竞技编程比赛,以展示这个模型的编码技能。我们的评估与比赛规则紧密匹配,并允许10次提交。GPT-4o获得了808的Elo评分,这在人类参赛者中排在11百分位。这个模型远远超过了GPT-4o和o1——它获得了1807的Elo评分,表现优于93%的参赛者。
 

 在编程竞赛上的进一步微调,提高了o1的性能。改进后的模型在2024年国际信息学奥林匹克竞赛中,在竞赛规则下排名在第49百分位。

人类偏好评估


除了考试和学术基准测试,我们还评估了在广泛的领域中,对于具有挑战性的开放式提示,人类对o1预览版和GPT-4o的偏好。在这次评估中,人类训练师被展示了来自o1预览版和GPT-4o的匿名回应,并投票选择他们更喜欢的回应。在数据分析、编码和数学等需要大量推理的类别中,o1预览版以较大的优势被偏好于GPT-4o。然而,在一些自然语言任务上,o1预览版并不被偏好,这表明它并不适用于所有用例。

安全性


思维链推理为对齐(小梦备注:与人类意志对齐)和安全性提供了新的机会。

我们发现,将我们的模型行为政策整合到推理模型的思维链中,是一种有效的方法,可以稳健地教授人类价值观和原则。通过教授模型我们的安全规则以及如何在上下文中推理它们,我们发现推理能力直接有益于模型的鲁棒性:o1预览版在关键的越狱评估和我们评估模型安全拒绝边界的最困难的内部基准测试上取得了显著提高的性能。(小梦备注:这一点也可以参考OpenAI GPT o1技术报告阅读(2)- 关于模型安全性的测试案例_openai o1>openai o1大模型中文技术报告-CSDN博客)

我们相信,使用思维链推理为安全性和对齐提供了重大进步,因为:

(1)它使我们能够以可读的方式观察模型的思考;

(2)模型对安全规则的推理更能抵御各种外部干扰场景的鲁棒性挑战;

为了对我们的改进进行压力测试,我们在部署前进行了一系列的安全测试和红队攻击,这符合我们的准备框架。

我们发现,思维链推理有助于我们评估中的能力提升。特别值得注意的是,我们观察到了一些有趣的奖励黑客行为实例。这些评估的详细结果可以在随附的系统卡片中找到。

相关内容:

【https://cdn.openai.com/o1-system-card.pdf#page=16】

【https://openai.com/index/openai-o1-system-card/】

贴一张微信截图自动翻译的评估内容,大概感受下...(翻译的有点烂,不过不影响理解)

隐藏思维链


我们认为,隐藏的思维链为监控模型提供了一个独特的机会。

假设它是忠实和清晰的,隐藏的思维链允许我们“读懂”模型的思维并理解其思考过程。

例如,在未来我们可能希望监控思维链,以寻找操纵用户的征兆。然而,为了使这行之有效,模型必须有自由以未修改的形式表达其思想,因此我们不能将任何政策合规性或用户偏好训练到思维链上。我们也不想让用户直接看到未对齐的思维链。

因此,在权衡了包括用户体验、竞争优势和追求思维链监控的选项在内的多个因素之后,我们决定不向用户展示原始的思维链。我们承认这个决定有其缺点。我们努力通过教授模型在答案中复制思维链中的任何有用想法来部分弥补这一点。对于o1模型系列,我们展示了模型生成的思维链摘要。


【小梦备注:哈,或许官方公布的这几个例子是唯一有完整思维链展示的,所以如果想要理解这个模型,还是满建议大家详细读读前边翻译的这几个案例的。当然,官网对于代码、化学和数学的案例也可以看看。】

结论


o1在人工智能推理方面显著推进了现有技术。

我们计划在我们继续迭代的过程中发布这个模型的改进版本。我们预计这些新的推理能力将提高我们使模型与人类价值观和原则对齐的能力。我们相信o1及其后续版本将为科学、编码、数学和相关领域的人工智能解锁许多新的用例。我们对用户和API开发者发现它如何改善他们的日常工作感到兴奋。
 

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~


http://www.niftyadmin.cn/n/5670498.html

相关文章

C语言 | Leetcode C语言题解之第415题字符串相加

题目: 题解: char* addStrings(char* num1, char* num2) {int i strlen(num1) - 1, j strlen(num2) - 1, add 0;char* ans (char*)malloc(sizeof(char) * (fmax(i, j) 3));int len 0;while (i > 0 || j > 0 || add ! 0) {int x i > 0 ?…

解释器模式:将语法规则与执行逻辑解耦

解释器模式(Interpreter Pattern)是一种行为设计模式,它提供了评估语言的语法或表达式的方式。该模式通过定义一个语言的文法表示,并通过解释这些表示来执行相应的操作。 解释器模式主要用于设计一种特定类型的计算机语言或表达式…

从零开始学习Linux(13)---多线程

目录 1.线程 1.线程的概念 2.线程的理解(Linux系统为例)---一般系统 3.进程vs线程 4.线程的控制 5.线程的等待 6.线程的终止 7.线程的分离 2.线程的互斥 1.互斥锁 2.条件变量 3.生产消费模型 4.阻塞队列 5.信号量 6.唤醒队列 1.线程 1.线…

openEuler系统安装内网穿透工具实现其他设备公网环境远程ssh连接

目录 前言 1. 本地SSH连接测试 2. openEuler安装Cpolar 3. 配置 SSH公网地址 4. 公网远程SSH连接 5. 固定连接SSH公网地址 6. SSH固定地址连接测试 作者简介: 懒大王敲代码,计算机专业应届生 今天给大家聊聊openEuler系统安装内网穿透工具实现其他…

(PySpark)RDD实验实战——取最大数出现的次数

实验环境: 提前准备好findspark,pyspark,py4j等库import findspark from pyspark import SparkContext, SparkConffindspark.init() #初始化spark,默认为你所设定的环境变量 conf SparkConf().setAppName("jsytest")…

go 读取excel数据存储到mysql

一、安装依赖 go get github.com/go-sql-driver/mysql go get github.com/jmoiron/sqlx 二、main.go package mainimport ("fmt""github.com/jmoiron/sqlx""log" ) import "github.com/tealeg/xlsx" import _ "github.com/go-s…

ollama设置开机启动服务

在 Ubuntu 20.04 系统中创建一个 systemd 服务文件以管理一个名为 ollama 的自定义服务,您需要遵循以下步骤: 打开终端。创建一个新的服务文件 /etc/systemd/system/ollama.service。 下面是一个基本的 ollama.service 文件示例。您需要根据您的服务需求…

华为全联接大会HC2024 观会感

9/19-21于上海,华为举办了他一年一届也是最重要的华为系展会-Huawei Connect 华为全联接大会,今天有幸赶在展会最后一天来参观一下 上午照常是keynote,由华为计算线总裁进行了今天的KN开场,介绍了华为在“算”方面的进展&#x…