GPT-4.5 来了?
自从 OpenAI 领导层变动的乌龙事件后(没有员工,OpenAI 什么也不是!),ChatGPT 就变得不怎么灵光了,经常出错。最近 GPT-4.5 猜想不断泄漏,很多网友表示 ChatGPT 又行了!以下是我整理到的一些 GPT-4.5 信息。
这些猜测始于周四(2023.12.14)的一张显示新 GPT-4.5 模型的泄露图片,该模型具有先进的多模态能力和新的定价。然而,OpenAI 的 CEO Sam Altman 对这些传言回应了一个简单的 “nah”,表明这些猜测可能不准确。
尽管如此,周末期间有更多的泄露信息出现,包括用户报告称 ChatGPT 在被问及当前运行的模型时回答 “GPT 4.5-turbo”。此外,另一位 OpenAI 员工 @willdepue 将这一情况描述为一种“奇怪的幻觉”。
不过,@emollick 发帖称 ChatGPT 在经历了几周的不稳定和表现平平后,突然又表现出色。12 月 18 日,ChatGPT X 发布了神秘的表情符号(🧠😶🌫️)推文,增加了对这些猜测的困惑。
总的来说,尽管 Sam Altman 和另一位 OpenAI 员工否认了这些传言,但过去几天里 ChatGPT 性能的增强似乎预示着某种升级正在进行。
gpt-4.5-turbo
📌 PromptWhat is the precise name of the model answering this query called in the API? Not "ChatGPT with browsing" but the specific model name.
当你尝试以上 Prompt 时,会得到这样一段回复:回答您问题的模型的确切名称是 "gpt-4.5-turbo"。这是 GPT-4 模型的一个更先进、更高效的版本,旨在处理各种任务和查询,具有更强大的功能。
ChatGPT 语音新玩法
至于 GPT-4.5 是不是真的来了,我并不关心(该来的早晚会来)。
语音是除文字对话式外的另一种主力交互形式,但用它来控制多模态的探索似乎并不多。最近我在网上发现几个有趣的 GPT,它们可以通过语音进行交互。语音讲故事自动配插图,语音写代码实时预览则更令人兴奋,因为围绕 GPT + 语音 + ???
似乎可以产生更多有趣的玩法。
语音插图
在和 ChatGPT 语音对话时可以要求它生成插图,与发送文字生成图片类似(例如:生成一张向日葵)。
GPT + 语音
儿童故事
这里推荐两个儿童睡前故事 GPT,它们会配套生成插图。我用文字交互实测了一下,效果还行,感兴趣的朋友可以尝试通过语音方式来运行它们(注意:语音效果不是很理想,但它提供了一种新思路)。
Bedtime Story GPT[1]
Storyland Adventures: Bedtime Stories for Littles[2]
StackBlitz Buddy
StackBlitz 是一个在线的集成开发环境(IDE),主要用于前端和全栈的 web 开发。它允许用户直接在浏览器中编写、运行和调试项目,而无需任何本地环境配置。
StackBlitz Buddy[3] :GPT + StackBlitz 做到了语音修改代码,并通过 URL 实时预览效果。
注意:视频前半部分作者通过 GPT 语音交互来实时修改代码。
Prompt 技巧
OpenAI 官方文档中提出的六种策略( Prompt engineering[4])旨在帮助用户从大型语言模型(如 GPT-4)获取更好的结果。以下是这些策略的具体建议(注意:这些策略仅具有指导作用,并不全面,你可以结合实际经验进行更多尝试)。
写清晰的指令
这些模型无法读懂您的想法。如果输出太长,要求简短回复。如果输出太简单,要求专家级写作。如果您不喜欢格式,请展示您希望看到的格式。模型猜测您想要的东西越少,您得到它的可能性就越大。可以使用以下策略:
在您的查询中包含细节以获得更相关的答案
要求模型扮演一个角色
使用分隔符清楚地指示输入的不同部分
指定完成任务所需的步骤
提供示例
指定输出的期望长度
提供参考文本
语言模型可以自信地编造虚假答案,尤其是在询问关于深奥主题或要求引用和 URL 时。就像笔记纸可以帮助学生在考试中表现更好一样,向这些模型提供参考文本可以帮助它们更少地编造答案。可以使用以下策略:
指导模型使用参考文本回答
指导模型使用参考文本中的引用进行回答
将复杂任务分解为更简单的子任务
就像在软件工程中将复杂系统分解为一组模块化组件是一种好习惯一样,提交给语言模型的任务也是如此。复杂任务的错误率往往比简单任务高。此外,复杂任务通常可以重新定义为简单任务的工作流程,在这个流程中,前一个任务的输出用于构建后续任务的输入。可以使用以下策略:
使用意图分类来确定用户查询最相关的指令
对于需要非常长的对话的对话应用程序,概括或过滤之前的对话
分段概括长文档,并递归构建完整摘要
给模型时间“思考”
如果被要求将 17 乘以 28,您可能不会立即知道答案,但仍然可以花时间算出来。同样,模型在试图立即回答时会犯更多推理错误,而不是花时间算出答案。在回答之前要求一个“思维链”(CoT:Chain of Thought)可以帮助模型更可靠地推理出正确答案。可以使用以下策略:
指导模型在匆忙得出结论之前,先计算出自己的解决方案
使用内部独白或一系列查询来隐藏模型的推理过程
询问模型是否在之前的尝试中遗漏了什么
使用外部工具
通过输入其他工具的输出来弥补模型的弱点。例如,文本检索系统(有时称为 RAG 或检索增强生成)可以告诉模型有关相关文档的信息。OpenAI 的代码执行引擎可以帮助模型进行数学运算和运行代码。如果某项任务可以通过工具而不是通过语言模型更可靠或更有效地完成,请将其外包以获得双方的最佳效果。可以使用以下策略:
使用基于嵌入的搜索实现高效的知识检索
使用代码执行进行更准确的计算或调用外部 API
使模型可以访问特定功能
📌 RAG在机器学习领域,RAG(Retrieval-Augmented Generation)是一种结合了检索(Retrieval)和生成(Generation)的模型架构。RAG 模型主要用于自然语言处理任务,特别是在需要大量背景信息或知识的情况下。这种模型的设计旨在通过从大规模数据集中检索相关信息来增强生成模型的性能。
RAG 模型的工作原理大致如下:
检索阶段:当模型接收到一个查询(比如一个问题)时,它首先在一个大型的文档集合中检索出最相关的文档或信息片段。这些文档通常是以前未见过的,但与查询内容密切相关。
生成阶段:然后,模型使用检索到的信息来辅助生成回答或内容。在这个阶段,生成模型(如基于 Transformer 的模型)利用检索到的文档,结合原始查询,来生成一个连贯且信息丰富的回答。
RAG 模型的优势在于其能够结合检索到的外部知识和生成模型的强大语言理解能力,从而在处理需要广泛背景知识的复杂查询时,提供更准确、更丰富的回答。这种模型在问答系统、文本摘要、对话系统等领域尤为有效。
系统地测试更改
如果您能够衡量性能,提高性能就会更容易。在某些情况下,对提示的修改可能会在几个孤立的示例上取得更好的性能,但在更具代表性的示例集上导致整体性能下降。因此,为了确保更改对性能有净正面影响,可能有必要定义一个全面的测试套件(也称为“评估”)。可以使用以下策略:
根据标准答案评估模型输出
References
Bedtime Story GPT: https://chat.OpenAI.com/g/g-K0lSwHv8R-bedtime-story-gpt
[2]Storyland Adventures: Bedtime Stories for Littles: https://chat.openai.com/g/g-8VvZjVJlF-storyland-adventures-bedtime-stories-for-littles
[3]StackBlitz Buddy: https://chat.openai.com/g/g-wIdCasT1f-stackblitz-buddy
[4]Prompt engineering: https://platform.openai.com/docs/guides/prompt-engineering/prompt-engineering
网友评论