主要观点总结
本文主要报道了关于生成式AI的多个新进展,包括ChatGPT、Google、Midjourney、Ray-Ban Meta智能眼镜、DeepSeek-VL2、Tokenization技术、Llama模型、智谱融资、宇树机器人以及Scale AI创始人的观点等多个方面。
关键观点总结
关键观点1: ChatGPT搜索功能全面开放和新增语音搜索。
ChatGPT搜索功能向所有用户免费开放,并新增语音搜索服务,支持自然对话和多种语音风格,集成实时数据和地图服务。
关键观点2: Google发布Veo 2、Imagen 3和Whisk。
谷歌发布的新工具组合包括支持4K高清、精细物理理解和高级相机控制的Veo 2,提升图像质感和构图精准的Imagen 3,以及通过图像作为prompt简化创作流程的Whisk。
关键观点3: Midjourney推出个性化档案和情绪板(Moodboards)新功能。
Midjourney新功能允许用户通过上传图片集个性化训练AI模型,创建多个个性化档案,并增强创作者对项目的控制与灵活性。
关键观点4: Ray-Ban Meta智能眼镜新增实时AI、翻译和Shazam功能。
Ray-Ban Meta智能眼镜现在支持实时AI功能,增强实时翻译功能,并集成了Shazam功能,可通过语音命令识别歌曲。
关键观点5: DeepSeek-VL2视觉对话能力提升并开源。
DeepSeek发布了开源的DeepSeek-VL2,其性能优于Qwen1.5和LLaMA3,通过动态高分辨率视觉编码、改进MoE机制和数据扩展,提升了视觉语言理解能力。
关键观点6: Meta发布无需Tokenizer的架构Byte Latent Transformer(BLT)。
Meta等发布了Byte Latent Transformer(BLT),这是一个无需传统tokenizer的架构,直接建模字节流,提高了计算效率和模型性能。
关键观点7: 其他公司的进展和融资情况。
包括智谱完成新一轮融资用于GLM大模型研发,商业化收入增长超100%;宇树机器人更新开源强化学习代码,支持从训练到仿真和实操的过程等。
关键观点8: Scale AI创始人观点。
Scale AI创始人表示中美AI差距在缩小,特别是在“思维循环”技术方面。他还提到数据稀缺性将是AI发展的瓶颈,到2025年AI智能体将成为重要的创业机会。
文章预览
生成式AI 一、 OpenAI Day8:ChatGPT搜索功能全面开放、新增语音搜索 1. ChatGPT搜索功能向所有用户免费开放,用户可通过OpenAI账户使用并设为默认搜索引擎; 2. 新增语音搜索服务,支持自然对话和多种语音风格,提升用户交互体验; 3. 集成实时数据和地图服务,与顶级数据提供商合作,提供最新信息和丰富的搜索结果。 https://mp.weixin.qq.com/s/8jdPVn-12qiOOZajrCqQHw 二、 Google正面硬刚,发布 Veo 2、Imagen 3、Whisk一套组合拳 1. 谷歌发布Veo 2、Imagen 3及Whisk,视频和图像生成超越OpenAI的Sora; 2. Veo 2支持4K高清、精细物理理解和高级相机控制,实现电影级视频效果; 3. Imagen 3提升图像质感与构图精准,Whisk通过图像作为prompt简化创作流程。 https://mp.weixin.qq.com/s/PFeyrX2q9mWd6GIrJ9qdWQ 三、 Midjourney推出个性化档案和情绪板Moodboards新功能 1. Midjourney推出Moodboards功能,允许用户
………………………………