在人工智能技术日新月异的当下,语音合成领域正经历着一场深刻变革。6月26日,科大讯飞宣布语音合成技术实现全新升级,其"一句话声音复刻"与"超拟人合成"两大核心能力取得突破性进展,再次刷新了人们对AI语音技术的认知。
从“数十小时”到“一句话”:声音复刻的效率革命
传统语音合成技术需用户录制数小时素材以捕捉音色细节,而科大讯飞通过星火语音大模型与三阶段层次化建模框架,将这一过程压缩至“一句话”。其创新之处在于:通过星火底座大模型解析发音规律,结合mel VQ-AE模型解耦音色与语义特征,最终利用高精度声码器还原波形。这一技术突破使得AI能精准捕捉喉腔共鸣、气息流转等细微特征,复刻效果甚至达到“以假乱真”的程度。
更值得关注的是,科大讯飞在技术底层构建了“音色无关的离散语义token”,实现发音内容与音色特征的分离。这一设计不仅提升了建模稳定性,还为跨语言、跨场景的语音合成奠定了基础。例如,用户可仅用一句话录制中文音色,AI便能将其迁移至英语、方言甚至歌唱场景,大幅拓展了个性化语音的应用边界。
超拟人合成:让AI拥有“上下文情商”
在需要深度交互的场景中,仅复刻音色远不够。科大讯飞此次推出的超拟人合成技术,通过上下文感知系统赋予AI“情绪理解力”。该系统融合历史对话文本与音频特征,利用跨模态编码器分析语境,使AI能实时调整语气、停顿和情感表达。在实测中,面对用户情绪波动或话题转换,合成语音的回应自然度已接近真人水平。
这一技术已率先落地智能汽车座舱。蔚来汽车搭载讯飞技术的NOMI助手,可通过超拟人情感音色与用户自然对话;奇瑞、广汽等车企的车型则利用该技术实现方言交互,使车内交流更具“人情味”。数据显示,搭载情感合成技术的导诊机器人在医疗场景中,与老年患者的对话自然度提升200%,有效缓解了沟通障碍。
技术普惠:从车载到千行百业的生态渗透
讯飞语音技术的辐射力远不止于此。在教育领域,AI学习机通过多轮对话诊断学情,为学生定制个性化学习路径;在数字内容创作领域,超拟人数字人技术实现“一张照片+一句话录音”生成虚拟主播,唇形同步率达98%;在金融领域,智能客服能根据用户情绪调整应答策略,提升服务满意度。
截至目前,星火语音大模型已服务全国5万余所学校、600家医院及众多金融机构,其技术底座正成为AI赋能千行百业的关键基础设施。正如科大讯飞研究院院长刘聪所言:“声音不仅是工具,更是情感与个性的载体。”当AI语音技术突破效率与情感的双重壁垒,一个更智能、更温暖的人机交互时代,正加速到来。