当多视角生成技术开始重构AI价值,巨头都坐不住了:阿里“千问”火线出击
17173 新闻导语
阿里千问App上线!揭秘Qwen Image多视角编辑黑科技,一键切换照片角度,挑战ChatGPT。体验AI视觉创作新革命!

就在最近,阿里已秘密启动“千问”项目,基于 Qwen 最强模型打造一款同名个人 AI 助手——千问 App,全面对标 ChatGPT,加入全球 AI 应用的顶级竞赛。
11 月 13 日消息一公布,股价顺势起跳。没过几天,千问 App正式上架应用商店。


此前大家在网上刷到的“可以丝滑切换图片角度”的功能,正是出自阿里旗下Qwen 系列模型。


其中主攻图形的模型Qwen Image可以让照片从正面变成俯拍、仰拍,或让物品换个侧面展示、让人物从正脸变成侧脸、背影,一句话提示、几秒钟推理,模型便“生成”出新视角:光影、比例、结构、风格自然过渡。


比如说这张图,这不是两张照片,这是由前一张照片镜头向左旋转 90 度得到的,而且并没有发生明显变形,还保留了着装的特征和墙上文字的细节。
试想一下,如果在公共场所,比如演唱会现场、旅游景区、主题派对,这些地方难免会因为人多而没办法找到合适的拍照角度,错过一些“大片”的产出。而阿里这个模型堪称“照片级别的 3D 镜头切换”,从单纯“让图变得好看”而扩展,进阶成让“拍摄角度”变成可被 AI 控制与迭代的变量。


对于创意行业、广告内容、电商海报、影视前期视觉开发而言,这意味着:阿里将全面对标由 OpenAI、Google 等主导的闭源模型,在开源模型领域里开辟 C 端市场。
今天,我们就来盘一盘千问的“图形心脏”Qwen Image是如何作为一个“挑战者”重塑视觉创作想象的。
“千问”为何选择在此刻启动?答案藏在 Qwen 自身的技术与生态进化中。
过去三年里,阿里巴巴旗下通义千问(即 Qwen)语言模型家族已亮相,其后延伸为视觉-语言模型、图文生成模型。其累计下载量已超过6 亿次,位居全球第一。


阿里的千问 APP在 11 月 16 日上线。
包含最新发布的Qwen3-Max在多个能力评测中超越GPT-5、Claude Opus 4,首次让中国开源模型进入全球前三梯队。除此之外,模型也支持了 Qwen 全系列最新模型,包括本期主角——Qwen Image 系列
2025 年 8 月,Qwen 团队公开了文生图模型Qwen Image技术报告:该模型以约20 B参数规模为基础,主打“复杂文本渲染”与“图像生成、编辑一致性”两大能力。

报告上说,技术团队构建了大规模图文对、合成文本数据、采用“由简单至复杂”的训练(curriculum learning),从而提升模型在中英文字体、版式、段落级文本的渲染能力。
生成固然强大,但在实际生产中,依旧有大量场景并非“从无到有”生成,他们“基于已有图像、海报、场景”进行编辑:如添加物件、换背景、改文字、调整角度。





为此,团队在 2025 年 8 月 18 日公告(GitHub 仓库)解锁了 Qwen-Image-Edit。该版本专为“图像编辑”设计,并在模型卡中强调其支持语义编辑(Semantic Editing)与外观编辑(Appearance Editing)两大路径。
此前版本的编辑更多聚焦物件替换、文字修改、风格迁移等,而在9 月 22 日更新的 Qwen-Image-Edit-2509 版本中,团队显著增强了“多图输入+视角变换(novel view synthesis)”能力:支持多人、产品、场景混合输入、支持 ControlNet 深度图、边缘图、关键点图控制。



其中就有让网友们啧啧称奇的“多角度编辑”,这不仅让海报、电商商品图库可以“拍一图、多角度输出”,也让影视前期概念图、故事板可以“一张参考图+AI生成多个机位镜头画面”。
对此小编也是迫不及待地去试了一下。(测试为云端部署,非本地部署)
首先进入页面:

我们可以看见,上方左侧是图像上传处,右侧是生成效果面板。

这部分是相机控制,可以自定义照片旋转角度。这里我们上传一张国风插画。向左旋转 90 度,向右旋转 90 度就得到了:


基本上还原了原图的所有细节,接着试试看其它方向:


换一张图试试,看看不同风格的图片是否会影响出图效果。





当然,这只是一个简单的测试,还不能完全展现模型的全部实力,不过从响应速度和还原度来说已经可以完成日常修片的绝大多数需求了,大家可以去试试。
技术报告中强调,Qwen-Image 及其编辑版本采用了“将输入图像分别送入视觉-语言编码器(Qwen2.5-VL)和VAE 编码器”的双路径机制。
前者聚焦高层语义(对象身份、场景关系、版式结构),后者聚焦低层外观(纹理、色彩、光影)。

在编辑模块中,两条编码汇聚至 MMDiT(多模态扩散 Transformer)核心,从而实现编辑时既能保持“主体语义认同”又能兼顾“视觉细节保真”。
听上去是不是云里雾里,其实大白话就是像左右脑相互协作一样,分工合作,提高效率。该设计是提升 “编辑而非生成” 场景中一致性 的关键。

以前大家会发现 AI 好像不识字一样,但是现在为了提升字体排版、多行文本、复杂场景渲染能力,团队先采用从「无文本 → 单词」到「复杂段落、中英混排」的渐进式训练。



同时训练任务包括:文本到图(T2I)、图文到图(TI2I)、图到图(I2I)重建。通过多任务,模型 latent 空间在语义与外观之间得到更强对齐。

在 2509 版本中,这些技术的提升都为多角度编辑中的“丝滑操作”奠定了基础,不过技术报告中也指出极端视角(如从正面直接跳转至 180°背影)仍可能导致结构失真、身份模糊、光影突变。
不过也相信在国产技术的“郁郁生长”下,迟早会将这些瑕疵所覆盖,我们可以拭目以待。
在图像生成、编辑赛道,全球已有多款领先模型,例如:Stable Diffusion 系列、DALL·E 3、Midjourney,以及其他更多私有化闭源系统。



这些系统擅长生成新图像,但“基于已有图像进行可控编辑(尤其视角、人物一致性)”仍是挑战。
相比之下,Qwen-Image-Edit 的两条路径(语义+外观)、多任务训练策略及中英文本渲染能力,为其在“编辑”维度上构建了差异化优势。
同时,作为国内开源模型,其商业友好许可(Apache 2.0)也为国产创意工具链生态提供了加分项。

▲ Gemini 2.5 Flash 对 T2I-CoReBench(文本驱动图像生成模型)进行了测试,评估了模型的组合和推理能力,以上是开源模型主要结果。平均值表示每项能力的平均得分,总分则汇总了所有维度的综合得分。(数据来源:中国科学技术大学和快手科技集团Kling团队制作并整理)
尽管前景广阔,但也必须理性看待,技术尚未万能:极端视角、复杂背景、大量人物、大量物件编辑仍有结构、细节、身份保真不足。
图片编辑带来伦理、法律挑战。视角切换容易导致“真实性”丧失,比如电商展示产品应拍实物,而非 AI 生成;影视制作应说明素材来源。肖像权、版权、虚假宣传风险依然存在。


▲ 日本动漫巨头联手宣战 OpenAI!吉卜力 + 万代 + 东映:别再用我们的角色 “喂” AI!
比如 OpenAI 前段时间关于无版权的日系 IP “喂图”争议,日本政府也在积极配合版权方就 AI 平台滥用形象从中协调,并推进相关法规的落地。

▲ 日本《人工智能促进法》(目录节选)
开源模型虽利好创新,但监管、合规亦需同步。公开模型可能被滥用(换脸、喂图侵权、恶意编辑等),产业链与监管体系必须同步建立。

模型商业化、部署成本不低,大参数、高资源、量化、加速、推理优化仍是瓶颈。将模型从实验室用例转向大规模工业应用,还需要流程、工具、运维、算法支持。


因此,最好将 Qwen-Image-Edit 视为“工具升级”的重要节点,而不是“万能魔法棒”。它为创作者打开了“视角可编辑”的新维度,但也提醒我们:在追求效率与创意的同时,必须守住真实性、版权、创作者权益等底线。
从一张静态照片到可切换视角的多机位画面,从“换背景”“改文字”到“改镜头”“换机位”。
在“视角可编辑”的未来里,谁能善用这把“新镜头”?谁能承担由此带来的责任?内容创作者、品牌方、平台、监管者,都将成为这一变革进程中的参与者。
AI未来的风口在哪里?
关于AI,千问,Qwen Image,多视角生成,图像编辑,开源模型,ChatGPT,视觉创作,阿里巴巴,AI助手的新闻
- (2025-12-05) 网友在闲鱼出租豆包手机:一天600元 你心动么?
- (2025-12-05) 周鸿祎称豆包手机冲垮大厂护城河 美团淘宝连夜开会
- (2025-12-05) IBM称数万亿美元的AI数据中心建设几乎不可能回本
- (2025-12-05) 人工智能专家:AI一旦超过人类 大猩猩就是我们的下场
- (2025-12-05) 饿了么官宣!品牌全面焕新为“淘宝闪购”



