从智谱给出的GLM-Image生成图片示例可以看到,GLM-Image擅长画出包含逻辑流程的 科普插画、小红书等社交媒体风格较为明显的图文,以及商业海报、人像等。
图:GLM-Image生成图片示例 笔者实测发现,GLM-Image在整体画风上保持了较高的一致性,尤其在科普插画的逻辑表达方面表现较好,但在文字生成的准确性上仍存在个别偏差。
当前,图像生成领域竞争激烈。谷歌凭借其Gemini生态推出的 Nano Banana Pro,以“企业级”画质和强大的语言-图像协同能力,成为闭源图像生成模型的标杆产品;国内如阿里通义万相、字节即梦等也纷纷推出多模态生图产品。 笔者用同样的提示词对比谷歌Nano Banana、ChatGPT、即梦等3款常见模型,看到,不同的大模型有各自的风格。 提示词:赤壁之战,三国演义经典场景,熊熊大火燃烧曹军连环战船,火光冲天映红长江夜空,周瑜指挥若定羽扇指挥,诸葛亮祭东风法坛作法,火攻场面震撼,古代中国水战,千帆竞渡,箭矢如雨,烟雾弥漫,史诗级战争画面,传统中国画风与电影感结合,极致细节,电影级光影,8k,超震撼。 生成的图片如下图所示:
图:GLM-Image生成的图片 GLM-Image具有漫画或游戏原画风格,色彩饱和度高,线条分明。
图:NanoBanana生成的图片 Nano Banana 以“高质量、高分辨率、强氛围渲染”著称,对动态火焰、水波反射、衣袍飘动等细节绘制精准。
图:ChatGPT生成的图片 ChatGPT具备复杂场景构建、多物体协调,细节较为丰富,带有战争史诗感。
图:即梦生成的图片 即梦在中文语境中则注重历史文化准确性和中国美学表达,还原古代战船结构、旗帜样式等细节。 依旧可以期待的是,随着技术的迭代,这些多模态图像生成大模型生成的图片不仅画面精美,而且汉字准确率也大幅提升,拓展了海报、PPT、科普图等更多知识密集型场景。
文字渲染达开源SOTA,昇腾A2 MindSpore的硬核协同
为充分发挥昇腾NPU潜力,智谱与华为深度协同,基于昇思MindSpore框架,实现多项底层优化,包括动态图多级流水下发,将Host侧算子下发的关键阶段流水化并高度重叠,消除下发瓶颈,提升训练能力;多流并行执行,打破文本梯度同步、图像特征广播等操作的通信墙,提升整体效率。使用 AdamW EMA、COC、等昇腾亲和高性能融合算子,提升训练的稳定性和性能。 智谱指出,传统模型生成非正方形图像时需后期裁剪或重绘,易导致内容失真。GLM-Image通过改进Tokenizer策略,原生支持1024×1024至2048×2048任意比例输出,可直接生成小红书封面、电影横幅等图片,无需二次处理,极大提升实用性。 值得一提的是,GLM-Image是首个开源的工业级离散自回归图像生成模型。相比闭源的Nano Banana Pro,它不仅性能对标甚至局部超越,还向全球 开发者开放了完整技术路径,为下一代图像生成模型研究提供了新范本。
结语:国产AI的“分水岭时刻” 智谱表示,A PI调用模式下,生成一张图片仅需一毛钱(0.1元),将高质量AI生图成本降至“白菜价”,让中小企业、独立开发者、内容创作者都能轻松接入SOTA能力。另一方面,通过开源,GLM-Image为学术界和工业界提供了可复现、可改进的研究基线,有望激发更多基于“认知型生成”的创新应用。 更为重要的是,GLM-Image是首个在国产芯片上完成全流程训练的SOTA多模态模型,这也意味着国产大模型走进新的阶段。正如智谱所说:它验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com