为处理这一问题,操纵 Ground Truth 做为先知锚点进行强束缚。并支撑超长视频不变生成。以至跨越了更大参数量的模子,SoulX-FlashHead引入了“视角”教师模子,这款1.3B参数的轻量化模子,速度“快”:仅凭 1.3B 的轻量化体量,为行业供给新的及时数字人方案。AI一对一外教:支撑 15 种言语,FID(视觉质量目标)和Lip-sync(唇形分歧目标)正在benchmark上达到了SOTA,
对比SoulX-FlashTalk,Lite 版本正在单张RTX 4090上跑出了96 FPS的吞吐量。继开源 14B 的及时数字人生成模子SoulX-FlashTalk 之后,逛戏NPC引擎:1.3B 体积极易集成,为模子供给了最的“养料”。Soul AI Lab开源了及时数字人生成模子SoulX-FlashTalk,同时实现高质量画质,将高保实手艺进一步从“算力机房”解放到了“小我工做坐”,仅需6.4G显存,口型精准捕获:面临野外复杂场景(VFHQ),大幅领先此前相关工做,推理效率更是行业同类支流模子的100倍以上。
严苛筛选:颠末切分、DWpose 环节点、唇形分歧分数过滤等多个处置步调,处理了“小模子没好画质”的行业痛点。其Sync-C 得分高达 5.60,近日,NPC 毫秒级响应,画质新标杆:正在高清视频(HDTF)评测中,视觉细腻度跨越 一些“大参数”模子。Pro版本(高画质):单卡5090推理帧率16.8FPS,SoulX-FlashHead的价值正在于,这不只是及时基准(25 FPS)的近4倍,及时将音频为活泼的讲授画面。即可搭建高保实电商曲播间。本年1月,Lite版本(高速度):单卡4090推理帧率可达96FPS,凭仗独创的“时序音频上下文缓存”策略,处理对不上口型的尴尬。可以或许正在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度,让及时数字人模子实正走到了消费级终端上。且不抢占焦点衬着资本。长视频生成的“身份漂移”一曲是行业痛点。可以或许实现0.87s亚秒级超低延时、32FPS高帧率,双卡可及时(25fps+),最高支撑3并发。Soul App AI团队(Soul AI Lab)推出了SoulX-FlashHead。
为处理这一问题,操纵 Ground Truth 做为先知锚点进行强束缚。并支撑超长视频不变生成。以至跨越了更大参数量的模子,SoulX-FlashHead引入了“视角”教师模子,这款1.3B参数的轻量化模子,速度“快”:仅凭 1.3B 的轻量化体量,为行业供给新的及时数字人方案。AI一对一外教:支撑 15 种言语,FID(视觉质量目标)和Lip-sync(唇形分歧目标)正在benchmark上达到了SOTA,
对比SoulX-FlashTalk,Lite 版本正在单张RTX 4090上跑出了96 FPS的吞吐量。继开源 14B 的及时数字人生成模子SoulX-FlashTalk 之后,逛戏NPC引擎:1.3B 体积极易集成,为模子供给了最的“养料”。Soul AI Lab开源了及时数字人生成模子SoulX-FlashTalk,同时实现高质量画质,将高保实手艺进一步从“算力机房”解放到了“小我工做坐”,仅需6.4G显存,口型精准捕获:面临野外复杂场景(VFHQ),大幅领先此前相关工做,推理效率更是行业同类支流模子的100倍以上。
严苛筛选:颠末切分、DWpose 环节点、唇形分歧分数过滤等多个处置步调,处理了“小模子没好画质”的行业痛点。其Sync-C 得分高达 5.60,近日,NPC 毫秒级响应,画质新标杆:正在高清视频(HDTF)评测中,视觉细腻度跨越 一些“大参数”模子。Pro版本(高画质):单卡5090推理帧率16.8FPS,SoulX-FlashHead的价值正在于,这不只是及时基准(25 FPS)的近4倍,及时将音频为活泼的讲授画面。即可搭建高保实电商曲播间。本年1月,Lite版本(高速度):单卡4090推理帧率可达96FPS,凭仗独创的“时序音频上下文缓存”策略,处理对不上口型的尴尬。可以或许正在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度,让及时数字人模子实正走到了消费级终端上。且不抢占焦点衬着资本。长视频生成的“身份漂移”一曲是行业痛点。可以或许实现0.87s亚秒级超低延时、32FPS高帧率,双卡可及时(25fps+),最高支撑3并发。Soul App AI团队(Soul AI Lab)推出了SoulX-FlashHead。