【开源推荐】用 TEN Agent 快速打造 Voice Agent，让AI 能听能说 #6060

SyunWong · 2025-02-08T03:35:22Z

仓库地址：https://github.com/TEN-framework/TEN-Agent
快速体验：https://agent.theten.ai

【解决痛点】更多的人通过语音与 AI 进行交互，无论是 AI 口语陪练，还是 AI 智能外呼，或者是智能硬件陪伴，Voice Agent 具有广阔的应用空间。在实际应用中，想要让 AI 听得清、说得准，就需要面对低延迟传输、音频3A处理等大量问题。

TEN Agent 基于开源框架 TEN Framework，为开发者提供快速、高效的工具来构建实时对话式 Voice Agent，让 AI 能听能说。

TEN Agent 支持多模态互动，支持语音、图像等多种输入方式，并具备实时语音打断功能，能为用户带来自然的交互体验。通过https://agent.theten.ai 即可进行快速体验。

TEN Agent 已集成 Gemini 2.0，OpenAI Realtime、DeepSeek、RTC 等多种模型及组件，已适配 Dify、Coze 主流编排工具，同时支持 ESP32。  

免费开源框架
TEN Agent 基于主流对话式 Voice Agent开源框架 TEN Framework，用户可免费使用
完整的音视频传输解决方案，低延时、可打断
默认集成的RTC 包含了完整音视频传输解决方案，尤其是音频3A处理（回声消除、自动增益控制、主动降噪），无惧周围环境、让 AI 听得更清，实现更自然的交互
集成全球主流模型，可高效快速开发
已集成全球主流的 LLM、STT、TTS ，其中包含 Gemini 2.0，OpenAI Realtime、DeepSeek、RTC 等模块及组件，并且保持快速更新，能帮助用户快速开发
接入 dify.ai 和 Coze 等主流编排工具
用户只需将已搭建好的 chatbot 的 API Key 贴入 TEN Agent中，即可让自己的chatbot 能通过语音进行对话
支持 ESP 32，让智能硬件也能交流
已支持 ESP 32，用户可通过 TEN + ESP 32快速打造 AI 语音聊天硬件，可广泛应用于智能语音助手、智能家居等领域

TEN+Gemini.mp4

TEN.Story.teller.with.image.generator.mov

TEN+ESP32.mov

TEN.+SIP.mov

https://github.com/TEN-framework/TEN-Agent?tab=readme-ov-file#next-step

suziewong · 2025-02-08T05:17:16Z

mark

xiang0818 · 2025-02-10T16:27:45Z

我让她说中文，笑死我了。外国人学中文的口音都有

SyunWong · 2025-02-13T02:32:22Z

TEN Agent 已经可以和 DeepSeek R1 用语音聊天啦！而且不用等待“服务器繁忙”

ruanyf added the weekly label Feb 8, 2025

Provide feedback