🎥 Midjourney计划推出“文本转视频”模型,扩展AI形象生成器到视频创作领域。
摩根大通发布了DocLLM,一款专为多模态文档理解设计的生成式语言模型,通过轻量级扩展LLM,避免昂贵的图像编码器,以提高文档分析效能。
🚀 创新设计: DocLLM采用分离的空间注意机制,专注于边界框信息,解决文本和空间模态交汇处的复杂语义问题。
4. 机器人将加速发展。Optimus将取得巨大进步,许多其他机器人公司也将发布更新。
站长之家(ChinaZ.com)1月4日 消息:HandRefiner是一种可以修正形状不正常的手部图像的方法。在生成图像方面,目前的图像生成模型已经非常出色,但是在生成人类手部的图像时常常会出现问题,例如手指数量不对或者手形怪异。