专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
今天看啥  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250122

腾讯研究院  · 公众号  · 科技媒体  · 2025-01-22 00:15
    

主要观点总结

本文报道了关于生成式AI的多个进展,包括语音模型、思考模型、3D生成大模型等的应用和更新。文章介绍了各领域的AI技术的新特性、功能及优势。

关键观点总结

关键观点1: WaveForms开发端到端音频大模型,实现实时交互

WaveForms直接将音频输入处理,不经过语音转文本再转语音的步骤,提高了交互的实时性。

关键观点2: Kimi发布k1.5思考模型提升token使用效率

Kimi k1.5通过long2short强化学习技术,将长CoT模型的推理能力转移到短CoT模型,提高了token的使用效率。

关键观点3: 腾讯3D生成大模型2.0支持自动绑骨,实现分钟级生成游戏3D资产

腾讯的混元3D 2.0模型采用几何与纹理解耦生成技术,可生成高精度白模,并支持自动骨骼绑定功能。

关键观点4: T2A-01语音模型展现强语义理解能力

T2A-01语音模型支持多种语言合成,具备多层次情感表达能力,在处理大量同声词时展现出强语义理解能力。

关键观点5: 美图WHEE「AI海报」功能提供一键生成海报

美图推出的WHEE AI海报功能支持一键生成海报,并提供模板和素材生成功能。

关键观点6: 谷歌Gemini完成10万字商业战略书籍的写作

谷歌Gemini通过处理请求token和生成响应token,完成了一本商业战略书籍的写作。

关键观点7: Adobe推出的音乐模型DITTO-2可精准控制音乐强度、旋律

DITTO-2集成两种蒸馏技术和ITO推理时优化技术,可实现实时控制调整音乐的强度、旋律等。

关键观点8: 智谱清影AI视频工具升级支持画面主体大幅度运动

智谱清影AI视频工具通过升级模型结构和训练方法,支持画面主体进行大幅度运动。

关键观点9: 哥大团队细胞「基础」模型揭示人类细胞调控语法

哥大团队通过GET基础模型利用人类细胞染色质数据实现了实验级转录预测精度,揭示了细胞调控语法。

关键观点10: Pytorch负责人强调复合AI的推理能力

随着行业对AI推理能力的重视,Pytorch负责人介绍了Fireworks通过FireOptimizer实现的三维平衡以及多LoRA技术和分布式推理引擎的应用。


文章预览

生成式AI 一、  ChatGPT Voice之父创办语音模型公司,种子轮4000万美金 1. WaveForms开发端到端音频大模型,直接处理音频实现实时交互,不经过语音转文本再转语音的传统步骤; 2. 模型通过标记音频片段的情绪特征来识别和回应情感,而非真正"理解"情绪; 3. 核心技术将音频信号分解为标记后用专门音频变换模型处理,实现更低延迟的对话体验。 https://mp.weixin.qq.com/s/MfkbKWesosNnFxn3f3bEUA 二、  Kimi 发布k1.5思考模型对标o1满血版,还有完整技术报告 1. Kimi k1.5通过long2short强化学习,将长CoT模型的推理能力转移到短CoT模型,显著提升了token使用效率; 2. 采用部分回滚技术处理长CoT特性,通过多次迭代分解长响应为片段,降低计算开销; 3. 实现训练和推理任务的混合部署,利用Kubernetes Sidecar容器共享GPU,转换时间不超过1分钟。 https://mp.weixin.qq.com/s/9DulV_iztK18wg_4B ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览