数字人¶

AI 智能体和以前的 AI 有啥不一样 —— 传统的聊天机器人、AI 助手，本质就是 “只会回话的信息员”。比如你问 “明天广东天气咋样”，它能告诉你温度，但要是说 “帮团队订下周去广东的机票和酒店”，它顶多给你列几个订票链接，剩下的查航班、比价格、填信息，还得你自己动手。

但 AI 智能体不一样，它是 “能自己琢磨、自己办事的帮手”。核心区别就在于 “自主性”：你把一个复杂目标抛给它，比如刚才说的订机票酒店，它不用你一步步指挥，会先把这个大目标拆成小任务 —— 先查团队每个人的出行时间、再筛选符合预算的航班、对比酒店位置是不是近办事地点、最后还能自动填好预订信息。

整个过程就像一个靠谱的助理在干活：先在心里盘算步骤（思考），然后去调用订票软件、刷航空公司官网、填表单（行动），要是发现某趟航班没票了，还会回头看看是不是能调整出发时间，再重新查（观察反馈），直到把机票酒店全订好，不用你中途盯进度。简单说，以前的 AI 是 “你说一步，它做一步”，现在的 AI 智能体是 “你说要啥结果，它自己搞定全过程”。

AI 的能力被分成五个等级，从只会简单对话的 “新手期”，正一步步进化到能主动帮你办事的 “高阶状态”。智能体便是当下最先进的状态：

技术方案¶

方案一：单路，成本高¶

Fay框架 + 阿里FunAudioLLM生态 + 本地大模型（通义千问/DeepSeek）

层级	推荐组件	说明
控制层	Fay框架	模块化程度高，各组件可独立替换
ASR层	阿里FunASR	离线部署，中文识别率93%
LLM层	通义千问/DeepSeek	私有化部署，140GB+显存
Agent层	Dify/FastGPT	可视化工作流编排，知识库管理
TTS层	阿里CosyVoice	3秒克隆，支持方言
渲染层	MuseTalk/HeyGem	MIT协议，实时30fps+

硬件建议：RTX 4090 24GB（LLM推理）+ RTX 3060 12GB（TTS+渲染），内存32GB+。

方案二：轻量化¶

Dify + Live2D：无需独立GPU，CPU可运行。采用awesome-digital-human-live2d项目，Docker一键部署。适合展示Demo和内部测试，但Live2D真实感有限。

方案三：快速落地，单机¶

HeyGem 一键部署：适合需要快速出效果的场景。提供Windows一键安装包，60秒生成4K口播视频，完全离线保护数据安全。配合FastGPT实现智能问答。最低配置NVIDIA 1080Ti 8GB显存。

HeyGem + DUIX

HeyGem + FastGPT

Fay框架¶

Fay是一个帮助数字人（2.5d、3d、移动、pc、网页）或大语言模型（openai兼容、deepseek）连通业务系统的agent框架。

经过深度评测，目前真正实现「AI大模型 + 智能体 + 知识库 + 数字人形象」四合一完整方案的开源项目，只有Fay一个。

这是目前唯一实现四大核心组件完整集成的开源项目，堪称数字人界的「全家桶」。

大模型支持：OpenAI兼容接口、DeepSeek、通义千问、ChatGLM等
智能体能力：内置Agent自主决策和MCP框架连通业务系统
知识库：自定义知识库 + LangChain本地PDF检索
数字人形象：支持2.5D、3D、UE5、Unity、Web端多种形态
部署方式：支持全离线私有化部署，GPL-3.0协议允许商用

https://github.com/xszyou/Fay

https://qqk9ntwbcit.feishu.cn/wiki/JzMJw7AghiO8eHktMwlcxznenIg

优云智算平台，有镜像安装包

包月69，按小时计算3块1小时，是可以尝试的部署方案。

https://www.compshare.cn/images/compshareImage-1cft3sk9gvta

实时数字人¶

关键词：实时、交互、LLM驱动

Awesome Digital Human， 2D¶

https://github.com/wan-h/awesome-digital-human-live2d

https://light4ai.feishu.cn/docx/XmGFd5QJwoBdDox8M7zcAcRJnje

Agent模式

ReapterAgent（测试使用）：重复用户输入的语句
DifyAgent：接入Dify的服务
FastgptAgent：接入fastgpt的服务
CozeAgent：接入coze的服务
OpenaiAgent：接入适配openai接口的服务

主要特性

支持 Docker 快速部署
超轻量级，配置要求低于2核2G（实测，2G不够，前端打包卡死）
支持 Dify/FastGPT/Coze 等编排框架服务接入
支持 ASR、LLM、TTS、Agent 模块化扩展
支持 Live2d 人物模型扩展和控制方式
支持PC端和移动端web访问
支持沉浸式智能对话

类似的一个案例，博雅的这个画面，是实时对话，数字人用的是2.5D，背景是gif图，这种效果就已经不错了。

Heygem，3D¶

在数字人生成质量上，硅基智能开源的HeyGem达到业界顶级水平（比肩HeyGen等商业产品），但它缺乏智能对话能力，需要组合其他框架使用。

Heygem是一款专为Windows系统设计的全离线视频合成工具。

HeyGem前端开源而核心模型封装在Docker中，中国大陆商用需申请授权。

https://github.com/duixcom/Duix-Avatar

https://app.heygen.com/home

OpenAvatarChat，3D¶

https://github.com/HumanAIGC-Engineering/OpenAvatarChat?tab=readme-ov-file

https://github.com/aigc3d/LAM

配置要求太高，这个似乎是一个框架。阿里的千问系列

这里有两种LiteAvtar, LAM(Large Avatar Model)

Live Avatar，3D¶

实时交互式虚拟人，阿里联合多所高校

https://www.liveavatar.com/

https://github.com/Alibaba-Quark/LiveAvatar

https://mp.weixin.qq.com/s/Gqwxdbe91y7TokZNeo2hEQ

https://www.compshare.cn/images/19RvZ6GeEmzn（这个是在服务器段买GPU）

SoulX-FlashTalk

效果特别好，只公布了展示，新出来的项目

https://github.com/Soul-AILab/SoulX-FlashTalk

国内商用定制IT项目，3D¶

目前在百度、B站做推广的厂商，世优波塔、浪子之心，可以卖服务、也可以卖源码，都是IT项目定价，大概5~8万。这个外包项目，卖源码之后，买家贴标再次售卖给C端客户。

正规一点的团队，魔珐科技、奇妙元，也是高售价，数字人存在不能融合到业务系统里的问题。

并且有限定的并发路数，5路就很多了，不支持并发（可见，3D数字人的形象驱动，是要耗费GPU算力的）

AI老师一对一¶

下图中的这个画面，是一款App，孔子的形象非常逼真，用语音进行交流。

拆解这个项目，我们可以发现，数字人，是固定的视频切片。并且回复的内容，也是固定的孔子语录。那么就说明完全是预设好的。通过聊天机器人的对话，用LLM判断出回复哪个知识库就可以了，文字的展示动画、孔子形象动画，都是预处理好的。

这个功能的名称被叫做“直播教室”，实则是一个割韭菜。

做英语AI一对一的App，这种用到的数字人，就更为裸露，直接是几个gif循环播放，或者触发播放，连口型都不对了。更韭菜。

这种英语AI一对一，做了口型对齐工作，用的是图片对齐口型的技术。

非实时数字人¶

主要用于生成短视频的场景，这种数字人的逼格可以拉的很高，国内外有很多高端的模型。

语音技术栈¶

阿里FunAudioLLM全家桶（政府项目首选）¶

阿里开源了业界最完整的语音技术栈，且全部采用Apache-2.0/MIT协议，中文优化程度业界最佳：

•FunASR（7k Star）：远场高噪环境识别率达93%

•CosyVoice 3.0：3秒参考音频零样本克隆，支持方言

•SenseVoice：支持50+语言，比Whisper快15倍

百度飞桨生态¶

PaddleSpeech（11k Star）是业界首个开源端到端流式语音合成系统，基于国产飞桨框架，完整中文文档，普通CPU笔记本即可实时响应，非常适合信创项目。

腾讯 & 字节（学术级效果）¶

腾讯的MuseTalk、MimicMotion和字节的LatentSync 1.5都是顶级学术成果，效果出色但需自行整合。完整商业能力主要在各自云服务中。