来源：https://openai.com/devday/ 本文我们针对 DevDay[2025] 中涉及的以下内容进行简要介绍

Apps in ChatGPT

Apps in ChatGPT 是 OpenAI 推出的一种新型交互式应用程序，用户可以直接在 ChatGPT 平台内通过自然语言与这些应用进行对话，从而提升创作、学习和生产力。

交互式应用集成

用户可以直接在 ChatGPT 对话中与新一代的应用程序进行交互。可以通过直接呼叫应用名称或在相关情境下由 ChatGPT 推荐来启动这些应用。这些应用拥有可在聊天中直接使用的交互式界面。

自然语言启动

用户可以通过自然语言指令来使用应用。

例如，直接对 Spotify 说 “Expedia 帮我订一张明天从北京飞往东京的机票”。

例如，直接对 Canva 说: “Canva 请帮我做一个宠物商店的海报，要明亮背景”。

开发者工具 (Apps SDK)

OpenAI 发布了新的 Apps SDK（应用程序开发工具包）预览版，让开发者可以开始构建这些应用。该 SDK 是一个基于模型上下文协议（MCP）的开放标准。

Apps SDK 是开源的，文档和示例可在 https://developers.openai.com/apps-sdk 获取。对开发者来说，可触达超过 8 亿 ChatGPT 用户，并在未来实现变现。

首批合作伙伴

●首批上线的应用来自 Booking.com、Canva、Coursera、Expedia、Figma、Spotify 和 Zillow 等合作伙伴。

●即将推出的合作伙伴包括 AllTrails、Peloton、OpenTable、Target、theFork、Uber 等，今年晚些时候上线。它们涵盖了旅行、食物外卖、教育、健身、零售和本地服务等类别，旨在使 ChatGPT 成为处理日常任务的更通用平台。

安全与隐私

所有应用都必须遵守 OpenAI 的使用政策。在用户首次使用某款应用时，系统会提示用户进行连接，并明确告知哪些数据可能会被共享。

未来规划

未来，OpenAI 计划将应用推广到商业版、企业版和教育版 ChatGPT，并开放应用提交通道，建立专门的应用目录。同时，还将公布关于应用变现的更多细节

AgentKit

AgentKit 是一套完整工具集，旨在帮助开发者和企业构建、部署和优化代理（agents）。它解决了代理开发中的碎片化问题，如复杂的编排、自定义连接器和手动评估管道。

工作原理

AgentKit 提供了一套集成工具，用于简化创建和管理代理的过程。它包括视觉和编程界面，用于设计工作流、嵌入聊天体验以及评估性能，支持拖拽节点、版本控制和自动化优化。

主要功能

Agent Builder

视觉画布，用于创建和版本化多代理工作流，支持拖拽节点、预览运行、内联评估配置，以及预构建模板。

可通过 https://platform.openai.com/agent-builder/edit 访问使用。

●截至 2025 年 10 月 7 日（当前日期），Agent Builder 暂不收费。计费将于 2025 年 11 月 1 日开始，在此之前不会产生任何费用。这意味着在 beta 期间，你可以免费使用它，但使用过程中涉及的 API 调用（如调用模型）会按照标准 API 定价计算（不过目前整体免计费）。

●从 11 月 1 日起，Agent Builder 的使用将基于 API 模型的查询定价，例如 GPT-4o 的搜索定价从每千查询 30 美元起。定价和功能可能在从 beta 转向正式可用时调整。

与 n8n 、Dify 的区别

以下表格对比三者的核心差异：

Agent Builder 确实像 n8n 的 “克隆” 版，更注重 OpenAI 内部优化，而 n8n 更通用、集成强；Dify 则更 AI 导向，与 Agent Builder 在代理开发上最相似，但独立于 OpenAI。如果用过 n8n 或 Dify，切换到 Agent Builder 可能很顺手，但取决于是否需要 OpenAI 的模型深度集成。Coze 危！

Connector Registry

中央管理面板，用于管理 OpenAI 产品中的数据和工具连接，包括预构建连接器如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams，以及第三方 MCP。

ChatKit

不用自己建聊天 UI，就能做出专业级助手。和 OpenAI 的其他工具无缝连用。

从整体定位看，ChatKit 作为 AgentKit 的一部分，专注于前端聊天界面的快速集成，降低了开发者构建 AI 驱动聊天应用的门槛。它强调无缝嵌入现有产品中，支持从简单聊天到复杂代理工作流的扩展，特别适合企业级应用。

简单说就是帮你快速在网站或 App 里加一个聊天窗口，让用户能和 AI 聊天办事。它不是从零自己写代码，而是像搭积木一样，轻松嵌入现有的产品里。想象一下，你想在你的网站上加个 AI 助手，能帮用户问问题、上传文件、甚至调用其他工具解决问题 ——ChatKit 就是干这个的。

怎么用？

ChatKit 有两种用法：

1.简单方式（推荐）：用 OpenAI 的 “Agent Builder”（另一个工具，像画图一样设计 AI 的工作流程）先搭好后端逻辑，然后把 ChatKit 嵌入前端。OpenAI 帮你管服务器，不用自己操心。

2.高级方式：如果你想自己控制一切，用 Python 代码在自家服务器跑 ChatKit，后端连你自己的 AI 系统。

核心是，它提供现成的聊天界面：用户输入文字、上传文件，AI 回应，还能显示 AI 的 “思考过程”（比如一步步推理），让一切更透明。

搭建步骤

更详细内容参考：https://platform.openai.com/docs/guides/chatkit

1.先搭 AI ：用 Agent Builder 设计 AI 的 “工作流程”（比如，如果用户问天气，就调用天气工具）。这步生成一个 ID。

2.设置聊天窗口：在你的服务器上创建 “会话”（用代码生成一个安全令牌），然后在网站前端安装 ChatKit 的 React 组件（一种网页代码框架）。加几行代码，就能看到聊天框了。

3.优化调整：试用后，改改外观、加自定义按钮，或优化 AI 的提示语，让它更聪明

Evals Capabilities

新功能包括数据集、跟踪评分、自动化提示优化，以及第三方模型支持，用于测量和改进代理性能。

Reinforcement Fine-Tuning (RFT)

自定义工具调用和自定义评分器，用于增强模型推理，在 OpenAI o4-mini 上可用，并在 GPT-5 的私有 beta 中。

Sora 2 API

Sora2 API 发布了，可以这样接入：

 1⚡ python片段from openai import OpenAI
 2
 3openai = OpenAI()
 4
 5video = openai.videos.create(
 6    model="sora-2",
 7    prompt="A video of a cool cat on a motorcycle in the night",
 8)
 9
10print("Video generation started:", video)

目前发布了两个模型：

●sora-2

●sora-2-pro

区别是：

总的来说，如果你只是玩玩或赶工，选 Sora 2；想出精品，Pro 更值。两者都通过 API 或 app 用，内容有严格限制。

使用指南

1.提交任务：用 POST /videos 接口发请求，带上模型（sora-2）、提示语、尺寸（如 1280x720）和时长（如 8 秒）。它会给你一个任务 ID。

2.检查进度：用 GET /videos/{id} 轮询状态，或者设置 webhook（一种自动通知）来收完成或失败的消息。

3.写好提示：要具体！比如描述镜头类型、主体、动作、场景和光线。比如：“广角镜头，一个小孩在草地公园放红风筝，金色夕阳光线，镜头慢慢向上摇。”

4.内容限制：适合 18 岁以下观众，不能用版权角色或音乐，不能生成真人（包括名人），输入图片不能有脸（以后可能有例外）。

5.用图片开头：可以上传图片作为第一帧，支持 JPEG、PNG、WebP 格式，但尺寸要匹配。

6.改视频（Remix）：用已生成的视频 ID 和新提示，针对性调整，比如改颜色或加元素。最好一次只改一件事，避免乱套

Codex 正式版发布

全球开发者爱用它，包括初创公司如 Duolingo 和 Vanta，大厂如 Cisco 和 Rakuten。甚至 OpenAI 自己内部，几乎所有工程师都靠它干活，比 7 月时多了 50%，每周合并的代码拉取请求（PR）多了 70%，几乎每个 PR 都自动审一遍。

主要新功能有：

●Slack 集成：直接在 Slack 频道或线程里扔任务，比如 “帮我修这个 bug”，它自动拉上下文、选环境、云端干活，然后发链接给你 —— 想合并代码或本地改，就点开继续。超方便，不用切工具。

●Codex SDK：一个工具包，能把 Codex 嵌入你的自定义流程、App 或脚本里（现在支持 TypeScript，更多语言快来了）。它优化了结构化输出和上下文管理，还带 GitHub Action，帮你塞进 CI / CD 管道（比如自动测试代码）。

●管理员工具：给企业用户的新面板，能管环境、监控使用、看分析仪表盘。比如删云环境、设安全默认值、跟踪 CLI/IDE/网页的使用情况。让大团队规模化用得安心。

从 2025 年 10 月 6 日起，ChatGPT Plus、Pro、Business、Edu 和 Enterprise 用户都能用 Slack 集成和 SDK。管理员工具限 Business、Edu 和 Enterprise。从 10 月 20 日起，云任务开始算使用量（之前免费）。

GPT-5 Pro

GPT-5 Pro 是 OpenAI 的 GPT-5 系列的一个 “加强版” 模型，专为处理难题设计的。它用更多计算资源 “多想一会儿”，输出更准、更靠谱。不同于普通版，它只通过 Responses API 用，支持多轮对话和未来高级功能。现在（2025 年 10 月）正式可用。

核心能力：

●上下文窗口大：能记住 40 万个 token 的上下文（相当于超长对话），输出最多 27.2 万 token（长文没问题）。

●支持模式：文字输入输出都行，图片只能输入（比如分析图），音频和视频暂不支持。

●推理模式：默认 “高强度思考”（reasoning.effort: high），带推理 token 支持，让它一步步推导问题。

●工具集成：能上网搜、搜文件、生成图片，还支持 MCP（模型控制面板）。但不支持代码解释器、电脑操作、流式输出、微调或蒸馏。

●其他：支持函数调用和结构化输出，适合复杂任务。

总之，它像个 “深度思考者”，不光聊天，还能帮你解难题，但专注文字和图片。

定价:

●文字 token：输入 $15/百万 token，输出 $120/百万 token（贵！比 GPT-5 的 $1.25/百万输入贵多了）。

●其他：工具调用额外收费，详情看定价页。比 o3-pro（输入 $20）也贵，适合高价值任务。

GPT-Realtime-Mini

GPT-Realtime-Mini 是 OpenAI 的一个 “轻量级” 实时 AI 模型，简单说就是个能快速聊天的 “语音助手”，专为低成本、实时互动设计。它能听你说话（或看图片）、实时回复文字或语音，适合建语音 App、客服机器人或游戏对话。

核心能力

●实时互动：通过 WebRTC、WebSocket 或 SIP 连接，处理音频 / 文本输入，瞬间输出回应。像视频通话里的 AI 伙伴。

●支持的东西：文本（输入/输出）、图像（只输入，比如描述图片）、音频（输入/输出，比如语音转文字或合成语音）。视频不支持。

●记忆力：上下文窗口 32,000 tokens（够聊长对话），最大输出 4,096 tokens。

●知识截止：到 2023 年 10 月 1 日（老了点，新事得靠工具补）。

●其他：有 “快照” 版本，能锁住模型不乱变。没高级玩意儿如函数调用、结构化输出、微调或预测。

定价（按百万 tokens）：

●文本：输入 $0.60，缓存输入 $0.06，输出 $2.40。

●音频：输入 $10，缓存 $0.30，输出 $20。

●图像：输入 $0.80，缓存 $0.08。总的贵在音频上，但比大模型便宜。

GPT-Image-1-Mini

GPT-Image-1-Mini 是 OpenAI 推出的一款 “经济实惠版” 图像生成模型，能用文字描述或现有图片快速生成或编辑图像。它是 GPT Image 1 的 “小弟”，更便宜、更高效，适合开发者嵌入到 App 里，比如设计工具或内容平台，不用花大钱就能玩转 AI 画图。

核心能力：

●生成新图：输入文字提示，就能吐出高质图片。比如 “一个可爱的猫咪在太空飞翔”，它会懂上下文，画出逼真或搞怪的图。

●编辑旧图：支持 “补画”（inpainting），用面具遮住部分区域改内容，比如加东西、删元素或换颜色。还能用参考图复制风格，确保一致性。

●输入输出：进货是文字 + 图片，出货是新图像。能调质量（低中高）、尺寸（比如 1024×1024 或长宽 1024×1536），还有 “输入保真度” 控制输出多像原图。

定价按 “token” 算（图像也转 token），超便宜：

●文字输入：$2 / 百万 token。

●图像输入（编辑用）：$2.50 / 百万 token。

●图像输出：$8 / 百万 token。实际一图成本：1024×1024 的低质只要 $0.005，中 $0.011，高 $0.036；大尺寸稍贵点，到 $0.052。比大模型便宜多了！