Qwen-Image-Edit 做对了一件所有图像模型都做的不太好的事:它能改字,而改得毫无破绽。

Qwen-Image-Edit 做对了一件所有图像模型都做的不太好的事:它能改字,而改得毫无破绽。

Qwen-Image-Edit 做对了一件所有图像模型都做的不太好的事:它能改字,而改得毫无破绽。

能保留字体、字号、字距、排版,连背景的透明度和光影都自动复原。 看上去原来就长一样,没有 P 的痕迹。

从去年下半年开始特别是今年,图像领域热火朝天,但真正落到场景里,更多的时候需要它在不破坏已有结构的前提下,完成我们想要的那一次精确改动。

比如你有张“香飘飘”的图,你想把它改成“GUCCI”。这是一次从 0.97 到 1.00 的精修。而这恰恰是当前大多数图像模型的盲区。

这事说起来简单,但对 AI 来说极难,首先要识别哪是字、哪是图;改完后还不能改变排版;字体还得保持一致;最主要还得融合背景的光影、材质、纹理。

大部分模型一做这种事就破功了,这几种现象你看看是不是很常见:字型变了、字丢了、图抠不准、边缘模糊,一眼假图。特别是很多模型,汉字全是乱码。

这其实是一个长期被低估的 AI 难题,但是 Qwen 怎么解决这个难点的?

它需要的是模型具备极强的结构识别能力和语义控制能力,这部分简单科普下:

– 一条路径是 Qwen2.5-VL,专门用来理解语义,比如我们到底想要改什么、改成什么;

– 一条路径是 VAE encoder,用来还原图像,把改动的字融入原图,改完以后,整体像素怎么去补齐、怎么糊上去看不出痕迹。

这种双路径设计,就像让一个设计师盯着图稿,一只眼盯内容,一只眼盯版式,再加上一双稳定的手,只有三者配合默契,才有可能完成一次不被察觉的修改。

所以未来图像 AI 应用的趋势,不应该只是生成更好看的图,对于图片的精修调整这件事也很重要。

其实世界上不乏顶级的模型,我们也总在问:中国能不能做出与 GPT 对标的模型?

或许这个问题太大了。但我们可以换个问法:我们有没有可能在某些细分能力上,先做到人无我有、人有我更优?

我觉得 Qwen-Image-Edit 给了一个很清晰的答案。

文字编辑的能力,尤其是中英文混排、复杂字体还原、结构一致性保持,在当前全球范围内都没有特别多能打的选手。即便是 GPT、Gemini、Claude御三家,也更擅长生成图而不是编辑图,就连最近出的 nano-banana 汉字也是各种错,并且那个字写的还不如我。

Qwen-Image-Edit 最主要还会书法,这字改的一点都不违和。看《兰亭集序》的书法,这就是这个模型最厉害的地方,能不破坏已有结构、完成一次高精度、低入侵的修改。

在人类设计师常年追求的“像没P过一样P图”,Qwen-Image-Edit 貌似能做到了。

2 评论

  1. Verification Needed: 1.4 BTC transaction held. Proceed here => https://graph.org/UNLOCK-CRYPTO-ASSETS-07-23?hs=dad075b204749cd020edbbd13c6bee73&

    hmjrcp

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注