Search
站内搜索
统一搜索工具、模型、教程、任务、资讯和工作流。也支持地址:/search?q=关键词。
160 results for "语音 Agent / 转写能力参考 怎么用"
最佳入口
先看分类,再决定点工具、模型还是教程
工具
可以直接打开使用的产品和网站。
语音 Agent / 转写能力参考
Agent平台 · 有免费额度 · 阶段 5语音转写、语音交互和会议资料整理是 Agent 常见入口。这里作为语音 AI 和多模态应用参考,具体产品能力以官方页面为准。
MiniMax Agent / 多模态能力
Agent平台 · 有免费额度 · 阶段 5MiniMax 生态里的模型、语音、音乐和多模态应用能力入口,适合关注声音内容、角色互动和 Agent 应用的用户继续查证。
Claude Managed Agents
Agent平台 · 有免费额度 · 阶段 6Anthropic 的托管多 Agent 会话架构,支持主 Agent 编排、子 Agent 独立线程、共享容器/文件系统、持久会话和跨轮继续协作。适合研究、资料处理、企业流程和高价值长任务。
TEN Framework
Agent平台 · 免费 · 阶段 6开源语音AI Agent框架,构建对话式语音助手。支持实时语音交互和多模态。
Pipecat
Agent平台 · 免费 · 阶段 6实时语音AI框架,构建语音Agent。连接ASR+LLM+TTS管道。
安全 Agent / 沙箱能力参考
Agent平台 · 免费 · 阶段 6安全与沙箱隔离是 Agent 落地的重要方向。这里作为安全研究和国产 AI 生态参考入口,具体工具形态以官方发布为准。
OpenAI Codex Agent
Agent平台 · 免费+付费 · 阶段 6OpenAI 官方编程 Agent,适合把需求推进到代码、文档、原型、验证和发布流程。使用时要保留清晰任务范围、验证命令和人工复核。
Claude Code Agent
Agent平台 · 付费 · 阶段 6Anthropic 官方 Agentic Coding 工具,可在终端、IDE、桌面和浏览器里读代码库、改文件、跑命令、创建提交和 PR。代码库理解与重构体验很强。
模型
API、本地模型和模型后端选择。
GPT-5.5
OpenAI · API · $5 输入 / $30 输出OpenAI 当前高档旗舰模型,适合复杂 Agent、专业编码、跨文档分析和高质量工作流。价格按官方 API 标准 token 口径记录,展示为输入/输出每百万 token。
Kimi K2.6
月之暗面 · API · 按官方 Kimi API 计费Kimi K2.6 是月之暗面当前应优先展示的开发者模型。它支持 OpenAI 兼容 API、思考开关、图片/视频输入,适合把 Claude Code、Roo Code、Cline 这类编码 Agent 接到国产模型上。
DeepSeek V4
DeepSeek · API · Flash $0.14 输入 / $0.28 输出DeepSeek V4 是模型,不是 Agent 产品。它的价值在于低成本、长上下文和兼容接口,可以作为 Claude Code、OpenCode、Cline 等 Agent/编码工具的后端模型。
GPT Realtime / Audio
OpenAI · API · 以官方实时语音 API 为准实时语音模型是近期最能降低普通人使用门槛的方向之一。它适合放进语音助手、客服问答、会议纪要和个人陪练工作流。
Claude Opus 4.6
Anthropic · API · $5/1M编程最强(80.8% SWE-Bench),Agent自主任务执行领先。深度推理和代码生成首选。
教程
一步一步照着学的页面。
小白天枢 安装和设置教程
小白官方 Agent 桌面应用 · 3-8 分钟 · 小白官方打开小白AI,下载桌面端,复制粘贴配置,几分钟把语音、模型和桌面 Agent 跑起来。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
GitHub Copilot Agent 安装和设置教程
产品方官方 Agent 插件 · 8-15 分钟 · 适合 GitHub 用户GitHub 官方 Copilot Agent 能在 GitHub、VS Code 和 IDE 里帮你改代码、开 PR、做后台任务。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
Hermes Agent 安装和设置教程
自学习 Agent · 10-25 分钟 · 进阶一点Hermes 更适合长期任务、技能系统和带记忆的 Agent,Windows 用户走 WSL2。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
Cursor Agent 安装和设置教程
产品方官方 Agent 桌面应用 · 5-10 分钟 · 最像普通软件不想先学终端的小白,可以先用 Cursor 打开项目,再用 Agent 改小功能。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
JetBrains Junie 安装和设置教程
产品方官方 Agent 插件 · 8-15 分钟 · JetBrains 用户优先JetBrains 官方 coding agent,适合 IntelliJ IDEA、PyCharm、WebStorm 等 JetBrains IDE 用户。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
Continue 安装和设置教程
IDE Agent 插件 · 10-20 分钟 · 适合可配置用户开源 VS Code / JetBrains AI 编程插件,可接云端模型、本地 Ollama、团队共享配置和 Agent 模式。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
Codex App 安装和设置教程
产品方官方 Agent 桌面应用 · 5-12 分钟 · 官方桌面端OpenAI Codex 官方桌面端,用来在本机管理工程 Agent、查看 diff、跑命令和恢复长任务。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
Kiro 安装和设置教程
产品方官方 Agent 桌面应用 · 5-12 分钟 · 适合做规范项目Kiro 是 Agentic IDE,强调规格驱动开发、Agent Hooks 和从需求到代码的闭环。 包含准备条件、安装步骤、启动验证、模型/API 接入和常见报错。
任务
照着做、交付结果、领取 XP 的闯关任务。
用 Claude Code 接 DeepSeek V4 改一个真实项目
L5 AI 编程与自动化 · 45-70 分钟 · +80XP把国产模型接到工程 Agent 里,先完成一个小 diff。
给你的 AI Agent 找到第一个 Skill
L3 给 AI 加能力 · 30-50 分钟 · +70XP不是收藏一堆 Skill 网站,而是从一个真实能力出发,学会搜索、筛选、安全判断和小样例验证。
用 Codex 完成一个网页小功能
L5 AI 编程与自动化 · 35-60 分钟 · +75XP从一个小需求开始,让工程 Agent 读项目、改代码、跑验证,交付可检查结果。
用 AI 做出第一个网站页面
L2 完成任务 · 8-15 分钟 · +55XP这不是公司官网项目,也不是工程工作流。先用 AI 生成一个能打开的页面,让新手立刻看到结果。
用 AI 做一个点击得分小游戏
L2 完成任务 · 8-15 分钟 · +55XP先做出能点、能加分、能重新开始的最小游戏。它是结果任务,不是公司级工作流。
资讯
新闻、发布、深度解读和教程资源。
MCP 为什么突然火了:Agent 真正要干活,必须会安全连接工具
深度解读 · 2026-05-13 · 小白AI 热点教程MCP、工具调用、AI 网关和 Agent 权限管理正在变成热门话题。它最适合放进 AI 编程与 Agent、自动化工作流分类,让用户知道 Agent 不是只聊天,而是要安全地连接文件、浏览器、数据库和业务系统。
OpenAI Agents SDK 值得小白关注:Agent 开始从聊天变成可追踪的工作流
教程资源 · 2026-05-13 · 小白AI 编辑部OpenAI Agents SDK 把工具调用、交接、追踪和多 Agent 编排放到一个工程框架里。对小白AI来说,重点不是马上写代码,而是把“Agent 做了什么、调用了什么、结果怎么验收”讲清楚。
OpenAI 推出新一代实时语音模型:AI 更像能听懂人的助手
产品发布 · 2026-05-07 · OpenAI ResearchOpenAI Research 页面显示,5月7日发布的新实时语音模型可以推理、翻译和转写语音。对普通人最直接的价值是:不用会写提示词,也能通过说话让 AI 帮忙解释、记录、翻译和处理任务。
企业 AI 最火的不是买账号:而是两周能验收的 Agent 试点
深度解读 · 2026-05-13 · 小白AI 热点教程企业 AI 现在最需要的是流程、数据、工具、人工确认和 ROI 验收。这个话题应放进企业知识库与客服,让团队先做客服、销售、财务、运营中的一个小试点。
浏览器 Agent 进入实用阶段:调研、截图、表单和网页验收会先落地
产品发布 · 2026-05-13 · 小白AI 编辑部Browserbase、Stagehand、AgentQL 等工具让 Agent 更容易操作网页。对普通用户最先有用的不是全自动下单,而是网页调研、资料提取、截图留证和页面验收。
技能
Agent、Dify、Coze、n8n 可安装或复用的能力。
Agent可观测性五层模型
通用 · 进阶 · 1.9K生产级Agent必备的可观测性方案。五层:①请求层(输入输出日志) ②推理层(思维链追踪) ③工具层(调用成功率和延迟) ④系统层(Token消耗和成本) ⑤结果层(任务完成质量)。用AgentOps/Langfuse/Helicone实现。
AgenticFlow Skill
通用 · 中等 · 10Claude Skill,用来搭建 AgenticFlow 自动化工作流,可连接大量 SaaS 服务,适合把业务流程拆成可执行节点。
语音笔记转文字
通用 · 简单 · 18.5K录音自动转文字笔记,AI提取要点和待办。会议/课堂/采访场景必备。
AI语音变声器
通用 · 简单 · 15.3K实时AI变声,支持多种音色(男/女/机器人)。直播和游戏玩家最爱。
AI调度官:多Agent任务编排
通用 · 进阶 · 5.2K阿里云开源的AI任务调度工作流。四层架构:接入层→调度中枢(Master Agent+思维链)→执行协作层(专家Agent)→记忆资产层(RAG+状态管理)。支持Plan-and-Execute模式、反思审计节点、人机对齐。已验证场景:全自动跨境电商选品+文案流水线。