跳转至

数字人

AI 智能体和以前的 AI 有啥不一样 —— 传统的聊天机器人、AI 助手,本质就是 “只会回话的信息员”。比如你问 “明天广东天气咋样”,它能告诉你温度,但要是说 “帮团队订下周去广东的机票和酒店”,它顶多给你列几个订票链接,剩下的查航班、比价格、填信息,还得你自己动手。

但 AI 智能体不一样,它是 “能自己琢磨、自己办事的帮手”。核心区别就在于 “自主性”:你把一个复杂目标抛给它,比如刚才说的订机票酒店,它不用你一步步指挥,会先把这个大目标拆成小任务 —— 先查团队每个人的出行时间、再筛选符合预算的航班、对比酒店位置是不是近办事地点、最后还能自动填好预订信息。

整个过程就像一个靠谱的助理在干活:先在心里盘算步骤(思考),然后去调用订票软件、刷航空公司官网、填表单(行动),要是发现某趟航班没票了,还会回头看看是不是能调整出发时间,再重新查(观察反馈),直到把机票酒店全订好,不用你中途盯进度。简单说,以前的 AI 是 “你说一步,它做一步”,现在的 AI 智能体是 “你说要啥结果,它自己搞定全过程”。

AI 的能力被分成五个等级,从只会简单对话的 “新手期”,正一步步进化到能主动帮你办事的 “高阶状态”。智能体便是当下最先进的状态:

image-20260108161137572

技术方案

方案一:单路,成本高

Fay框架 + 阿里FunAudioLLM生态 + 本地大模型(通义千问/DeepSeek)

层级 推荐组件 说明
控制层 Fay框架 模块化程度高,各组件可独立替换
ASR层 阿里FunASR 离线部署,中文识别率93%
LLM层 通义千问/DeepSeek 私有化部署,140GB+显存
Agent层 Dify/FastGPT 可视化工作流编排,知识库管理
TTS层 阿里CosyVoice 3秒克隆,支持方言
渲染层 MuseTalk/HeyGem MIT协议,实时30fps+

硬件建议:RTX 4090 24GB(LLM推理)+ RTX 3060 12GB(TTS+渲染),内存32GB+。

方案二:轻量化

Dify + Live2D:无需独立GPU,CPU可运行。采用awesome-digital-human-live2d项目,Docker一键部署。适合展示Demo和内部测试,但Live2D真实感有限。

方案三:快速落地,单机

HeyGem 一键部署:适合需要快速出效果的场景。提供Windows一键安装包,60秒生成4K口播视频,完全离线保护数据安全。配合FastGPT实现智能问答。最低配置NVIDIA 1080Ti 8GB显存。

HeyGem + DUIX

HeyGem + FastGPT

Fay框架

Fay是一个帮助数字人(2.5d、3d、移动、pc、网页)或大语言模型(openai兼容、deepseek)连通业务系统的agent框架。

经过深度评测,目前真正实现「AI大模型 + 智能体 + 知识库 + 数字人形象」四合一完整方案的开源项目,只有Fay一个。

这是目前唯一实现四大核心组件完整集成的开源项目,堪称数字人界的「全家桶」。

  • 大模型支持:OpenAI兼容接口、DeepSeek、通义千问、ChatGLM等
  • 智能体能力:内置Agent自主决策和MCP框架连通业务系统
  • 知识库:自定义知识库 + LangChain本地PDF检索
  • 数字人形象:支持2.5D、3D、UE5、Unity、Web端多种形态
  • 部署方式:支持全离线私有化部署,GPL-3.0协议允许商用

https://github.com/xszyou/Fay

https://qqk9ntwbcit.feishu.cn/wiki/JzMJw7AghiO8eHktMwlcxznenIg

image-2026010815113172

优云智算平台,有镜像安装包

包月69,按小时计算3块1小时,是可以尝试的部署方案。

https://www.compshare.cn/images/compshareImage-1cft3sk9gvta

image-20260108154932119

image-20260108155000640

实时数字人

关键词:实时、交互、LLM驱动

Awesome Digital Human, 2D

https://github.com/wan-h/awesome-digital-human-live2d

https://light4ai.feishu.cn/docx/XmGFd5QJwoBdDox8M7zcAcRJnje

Agent模式

  • ReapterAgent(测试使用):重复用户输入的语句
  • DifyAgent:接入Dify的服务
  • FastgptAgent:接入fastgpt的服务
  • CozeAgent:接入coze的服务
  • OpenaiAgent:接入适配openai接口的服务

主要特性

  • 支持 Docker 快速部署
  • 超轻量级,配置要求低于2核2G(实测,2G不够,前端打包卡死)
  • 支持 Dify/FastGPT/Coze 等编排框架服务接入
  • 支持 ASR、LLM、TTS、Agent 模块化扩展
  • 支持 Live2d 人物模型扩展和控制方式
  • 支持PC端和移动端web访问
  • 支持沉浸式智能对话

image-20260108153718532

类似的一个案例,博雅的这个画面,是实时对话,数字人用的是2.5D,背景是gif图,这种效果就已经不错了。

image-20260108160210049

Heygem,3D

在数字人生成质量上,硅基智能开源的HeyGem达到业界顶级水平(比肩HeyGen等商业产品),但它缺乏智能对话能力,需要组合其他框架使用。

Heygem是一款专为Windows系统设计的全离线视频合成工具。

HeyGem前端开源而核心模型封装在Docker中,中国大陆商用需申请授权。

https://github.com/duixcom/Duix-Avatar

https://app.heygen.com/home

img

OpenAvatarChat,3D

https://github.com/HumanAIGC-Engineering/OpenAvatarChat?tab=readme-ov-file

https://github.com/aigc3d/LAM

配置要求太高,这个似乎是一个框架。阿里的千问系列

这里有两种LiteAvtar, LAM(Large Avatar Model)

image-2026010815405868

Live Avatar,3D

实时交互式虚拟人,阿里联合多所高校

https://www.liveavatar.com/

https://github.com/Alibaba-Quark/LiveAvatar

https://mp.weixin.qq.com/s/Gqwxdbe91y7TokZNeo2hEQ

https://www.compshare.cn/images/19RvZ6GeEmzn(这个是在服务器段买GPU)

image-20260108161944814

SoulX-FlashTalk

效果特别好,只公布了展示,新出来的项目

https://github.com/Soul-AILab/SoulX-FlashTalk

国内商用定制IT项目,3D

目前在百度、B站做推广的厂商,世优波塔、浪子之心,可以卖服务、也可以卖源码,都是IT项目定价,大概5~8万。这个外包项目,卖源码之后,买家贴标再次售卖给C端客户。

正规一点的团队,魔珐科技、奇妙元,也是高售价,数字人存在不能融合到业务系统里的问题。

并且有限定的并发路数,5路就很多了,不支持并发(可见,3D数字人的形象驱动,是要耗费GPU算力的)

AI老师一对一

下图中的这个画面,是一款App,孔子的形象非常逼真,用语音进行交流。

拆解这个项目,我们可以发现,数字人,是固定的视频切片。并且回复的内容,也是固定的孔子语录。那么就说明完全是预设好的。通过聊天机器人的对话,用LLM判断出回复哪个知识库就可以了,文字的展示动画、孔子形象动画,都是预处理好的。

这个功能的名称被叫做“直播教室”,实则是一个割韭菜。

image-20260108155436520

做英语AI一对一的App,这种用到的数字人,就更为裸露,直接是几个gif循环播放,或者触发播放,连口型都不对了。更韭菜。

image-20260108155722291

这种英语AI一对一,做了口型对齐工作,用的是图片对齐口型的技术。

image-20260108155843375

非实时数字人

主要用于生成短视频的场景,这种数字人的逼格可以拉的很高,国内外有很多高端的模型。

语音技术栈

阿里FunAudioLLM全家桶(政府项目首选)

阿里开源了业界最完整的语音技术栈,且全部采用Apache-2.0/MIT协议,中文优化程度业界最佳:

•FunASR(7k Star):远场高噪环境识别率达93%

•CosyVoice 3.0:3秒参考音频零样本克隆,支持方言

•SenseVoice:支持50+语言,比Whisper快15倍

百度飞桨生态

PaddleSpeech(11k Star)是业界首个开源端到端流式语音合成系统,基于国产飞桨框架,完整中文文档,普通CPU笔记本即可实时响应,非常适合信创项目。

腾讯 & 字节(学术级效果)

腾讯的MuseTalk、MimicMotion和字节的LatentSync 1.5都是顶级学术成果,效果出色但需自行整合。完整商业能力主要在各自云服务中。