数字人¶
AI 智能体和以前的 AI 有啥不一样 —— 传统的聊天机器人、AI 助手,本质就是 “只会回话的信息员”。比如你问 “明天广东天气咋样”,它能告诉你温度,但要是说 “帮团队订下周去广东的机票和酒店”,它顶多给你列几个订票链接,剩下的查航班、比价格、填信息,还得你自己动手。
但 AI 智能体不一样,它是 “能自己琢磨、自己办事的帮手”。核心区别就在于 “自主性”:你把一个复杂目标抛给它,比如刚才说的订机票酒店,它不用你一步步指挥,会先把这个大目标拆成小任务 —— 先查团队每个人的出行时间、再筛选符合预算的航班、对比酒店位置是不是近办事地点、最后还能自动填好预订信息。
整个过程就像一个靠谱的助理在干活:先在心里盘算步骤(思考),然后去调用订票软件、刷航空公司官网、填表单(行动),要是发现某趟航班没票了,还会回头看看是不是能调整出发时间,再重新查(观察反馈),直到把机票酒店全订好,不用你中途盯进度。简单说,以前的 AI 是 “你说一步,它做一步”,现在的 AI 智能体是 “你说要啥结果,它自己搞定全过程”。
AI 的能力被分成五个等级,从只会简单对话的 “新手期”,正一步步进化到能主动帮你办事的 “高阶状态”。智能体便是当下最先进的状态:

技术方案¶
方案一:单路,成本高¶
Fay框架 + 阿里FunAudioLLM生态 + 本地大模型(通义千问/DeepSeek)
| 层级 | 推荐组件 | 说明 |
|---|---|---|
| 控制层 | Fay框架 | 模块化程度高,各组件可独立替换 |
| ASR层 | 阿里FunASR | 离线部署,中文识别率93% |
| LLM层 | 通义千问/DeepSeek | 私有化部署,140GB+显存 |
| Agent层 | Dify/FastGPT | 可视化工作流编排,知识库管理 |
| TTS层 | 阿里CosyVoice | 3秒克隆,支持方言 |
| 渲染层 | MuseTalk/HeyGem | MIT协议,实时30fps+ |
硬件建议:RTX 4090 24GB(LLM推理)+ RTX 3060 12GB(TTS+渲染),内存32GB+。
方案二:轻量化¶
Dify + Live2D:无需独立GPU,CPU可运行。采用awesome-digital-human-live2d项目,Docker一键部署。适合展示Demo和内部测试,但Live2D真实感有限。
方案三:快速落地,单机¶
HeyGem 一键部署:适合需要快速出效果的场景。提供Windows一键安装包,60秒生成4K口播视频,完全离线保护数据安全。配合FastGPT实现智能问答。最低配置NVIDIA 1080Ti 8GB显存。
HeyGem + DUIX
HeyGem + FastGPT
Fay框架¶
Fay是一个帮助数字人(2.5d、3d、移动、pc、网页)或大语言模型(openai兼容、deepseek)连通业务系统的agent框架。
经过深度评测,目前真正实现「AI大模型 + 智能体 + 知识库 + 数字人形象」四合一完整方案的开源项目,只有Fay一个。
这是目前唯一实现四大核心组件完整集成的开源项目,堪称数字人界的「全家桶」。
- 大模型支持:OpenAI兼容接口、DeepSeek、通义千问、ChatGLM等
- 智能体能力:内置Agent自主决策和MCP框架连通业务系统
- 知识库:自定义知识库 + LangChain本地PDF检索
- 数字人形象:支持2.5D、3D、UE5、Unity、Web端多种形态
- 部署方式:支持全离线私有化部署,GPL-3.0协议允许商用
https://github.com/xszyou/Fay
https://qqk9ntwbcit.feishu.cn/wiki/JzMJw7AghiO8eHktMwlcxznenIg

优云智算平台,有镜像安装包
包月69,按小时计算3块1小时,是可以尝试的部署方案。
https://www.compshare.cn/images/compshareImage-1cft3sk9gvta


实时数字人¶
关键词:实时、交互、LLM驱动
Awesome Digital Human, 2D¶
https://github.com/wan-h/awesome-digital-human-live2d
https://light4ai.feishu.cn/docx/XmGFd5QJwoBdDox8M7zcAcRJnje
Agent模式
- ReapterAgent(测试使用):重复用户输入的语句
- DifyAgent:接入Dify的服务
- FastgptAgent:接入fastgpt的服务
- CozeAgent:接入coze的服务
- OpenaiAgent:接入适配openai接口的服务
主要特性
- 支持 Docker 快速部署
- 超轻量级,配置要求低于2核2G(实测,2G不够,前端打包卡死)
- 支持 Dify/FastGPT/Coze 等编排框架服务接入
- 支持 ASR、LLM、TTS、Agent 模块化扩展
- 支持 Live2d 人物模型扩展和控制方式
- 支持PC端和移动端web访问
- 支持沉浸式智能对话

类似的一个案例,博雅的这个画面,是实时对话,数字人用的是2.5D,背景是gif图,这种效果就已经不错了。

Heygem,3D¶
在数字人生成质量上,硅基智能开源的HeyGem达到业界顶级水平(比肩HeyGen等商业产品),但它缺乏智能对话能力,需要组合其他框架使用。
Heygem是一款专为Windows系统设计的全离线视频合成工具。
HeyGem前端开源而核心模型封装在Docker中,中国大陆商用需申请授权。
https://github.com/duixcom/Duix-Avatar
https://app.heygen.com/home

OpenAvatarChat,3D¶
https://github.com/HumanAIGC-Engineering/OpenAvatarChat?tab=readme-ov-file
https://github.com/aigc3d/LAM
配置要求太高,这个似乎是一个框架。阿里的千问系列
这里有两种LiteAvtar, LAM(Large Avatar Model)

Live Avatar,3D¶
实时交互式虚拟人,阿里联合多所高校
https://www.liveavatar.com/
https://github.com/Alibaba-Quark/LiveAvatar
https://mp.weixin.qq.com/s/Gqwxdbe91y7TokZNeo2hEQ
https://www.compshare.cn/images/19RvZ6GeEmzn(这个是在服务器段买GPU)

SoulX-FlashTalk
效果特别好,只公布了展示,新出来的项目
https://github.com/Soul-AILab/SoulX-FlashTalk
国内商用定制IT项目,3D¶
目前在百度、B站做推广的厂商,世优波塔、浪子之心,可以卖服务、也可以卖源码,都是IT项目定价,大概5~8万。这个外包项目,卖源码之后,买家贴标再次售卖给C端客户。
正规一点的团队,魔珐科技、奇妙元,也是高售价,数字人存在不能融合到业务系统里的问题。
并且有限定的并发路数,5路就很多了,不支持并发(可见,3D数字人的形象驱动,是要耗费GPU算力的)
AI老师一对一¶
下图中的这个画面,是一款App,孔子的形象非常逼真,用语音进行交流。
拆解这个项目,我们可以发现,数字人,是固定的视频切片。并且回复的内容,也是固定的孔子语录。那么就说明完全是预设好的。通过聊天机器人的对话,用LLM判断出回复哪个知识库就可以了,文字的展示动画、孔子形象动画,都是预处理好的。
这个功能的名称被叫做“直播教室”,实则是一个割韭菜。

做英语AI一对一的App,这种用到的数字人,就更为裸露,直接是几个gif循环播放,或者触发播放,连口型都不对了。更韭菜。

这种英语AI一对一,做了口型对齐工作,用的是图片对齐口型的技术。

非实时数字人¶
主要用于生成短视频的场景,这种数字人的逼格可以拉的很高,国内外有很多高端的模型。
语音技术栈¶
阿里FunAudioLLM全家桶(政府项目首选)¶
阿里开源了业界最完整的语音技术栈,且全部采用Apache-2.0/MIT协议,中文优化程度业界最佳:
•FunASR(7k Star):远场高噪环境识别率达93%
•CosyVoice 3.0:3秒参考音频零样本克隆,支持方言
•SenseVoice:支持50+语言,比Whisper快15倍
百度飞桨生态¶
PaddleSpeech(11k Star)是业界首个开源端到端流式语音合成系统,基于国产飞桨框架,完整中文文档,普通CPU笔记本即可实时响应,非常适合信创项目。
腾讯 & 字节(学术级效果)¶
腾讯的MuseTalk、MimicMotion和字节的LatentSync 1.5都是顶级学术成果,效果出色但需自行整合。完整商业能力主要在各自云服务中。