AI 图片生成入门:从零开始用文字创造图片

不需要会画画,不需要学设计,只要你会打字,AI 就能帮你生成想要的图片。本文从零开始,教你掌握 AI 图片生成的核心玩法。
什么是 AI 图片生成
AI 图片生成,简单来说就是:你用文字描述想要的画面,AI 根据你的描述自动生成图片。这个过程不需要任何绘画技能,只需要你把想法说清楚。
这项技术在过去两年经历了爆发式发展。2022 年 Midjourney 横空出世,让普通人第一次体验到"文字变图片"的魔力;随后 DALL·E、Stable Diffusion 等工具相继推出,国产的通义万相、文心一格也快速跟上。到现在,AI 生成的图片已经广泛用于自媒体配图、电商素材、PPT 插图、甚至商业广告。
核心原理一句话:AI 在训练时"看"了数以亿计的图片和对应的文字描述,学会了"什么样的文字应该对应什么样的画面"。你给它一段描述,它就根据学到的规律生成一张全新的、不存在的图片。
主流工具一览

目前市面上的 AI 图片生成工具可以分为三类:
在线平台(推荐新手)
通义万相:阿里出品,原生中文支持,免费额度充足,注册即可使用。适合国内小白用户快速上手。
DALL·E 3:OpenAI 出品,集成在 ChatGPT 中。如果你已经是 ChatGPT 用户,直接在对话中让它画图即可,中文 Prompt 也能用。
Midjourney:画质公认最好,但需要通过 Discord 使用,且 Prompt 主要用英文。适合对画质有追求的用户。
本地部署(适合技术玩家)
Stable Diffusion:开源免费,可以部署在自己电脑上,完全离线使用。社区模型丰富,可玩性最高,但对电脑配置有要求(建议有独立显卡)。
集成在其他工具中
很多工具已经内置了 AI 图片功能:Canva 的"魔法图片"、美图秀秀的"AI 绘画"、Notion 的 AI 生图等。这些适合不想额外注册新工具的用户。
新手建议:先用通义万相或 DALL·E 3 练手,零成本、零门槛。等你熟悉了 Prompt 的写法,再考虑 Midjourney 或 Stable Diffusion。
四步生成流程

第一步:选工具
根据你的需求选择一个平台。新手推荐通义万相(免费、中文友好)或 DALL·E 3(如果你有 ChatGPT 账号)。注册登录后找到图片生成功能入口。
第二步:写 Prompt
这是最关键的一步。Prompt 就是你给 AI 的"图片描述"。写得好,出图质量高;写得差,出来的图可能完全不是你想要的。
Prompt 的基本结构:
| 要素 | 说明 | 示例 |
|---|---|---|
| 主体 | 画面的核心内容 | 一只橘猫 |
| 场景 | 在什么地方、什么环境下 | 坐在窗台上,窗外是雨天 |
| 风格 | 画面的艺术风格 | 水彩画风格 / 写实摄影 / 像素风 |
| 细节 | 光影、色调、构图等 | 暖色调,柔和光线,特写镜头 |
完整 Prompt 示例:
一只胖胖的橘猫,坐在窗台上,窗外是雨天,水彩画风格,暖色调,柔和的光线,特写镜头
第三步:生成与筛选
点击生成后,AI 通常会给你 2-4 张候选图。挑选最接近你预期的那张。如果不满意,可以:
- 调整 Prompt:增加或修改描述细节
- 换风格关键词:比如把"水彩"换成"油画"
- 加否定词:告诉 AI 你不要什么,比如"不要文字、不要模糊"
- 直接重试:同样的 Prompt 每次生成结果不同,多试几次可能就满意了
第四步:后期调整
AI 生成的图片很少能 100% 直接用。通常需要:
- 裁剪:调整构图,去掉多余的部分
- 修瑕疵:AI 常在手指、文字、小物件上出错,用修图工具修补
- 调色:统一色调,匹配你的使用场景
- 放大:如果分辨率不够,可以用 AI 放大工具(如 Real-ESRGAN)提升清晰度
Prompt 写作技巧
技巧一:从简单开始,逐步加细节
不要一上来就写一长串。先写核心描述,看效果,再逐步添加细节:
- 第 1 轮:
一只橘猫 - 第 2 轮:
一只橘猫,坐在窗台上 - 第 3 轮:
一只橘猫,坐在窗台上,窗外是雨天,水彩画风格 - 第 4 轮:
一只胖胖的橘猫,坐在窗台上,窗外是雨天,水彩画风格,暖色调,柔和光线
技巧二:用具体的形容词代替抽象词
| 不好 | 好 |
|---|---|
| 一张好看的图 | 电影级画质,浅景深,虚化背景 |
| 一个漂亮的城市 | 赛博朋克风格的东京夜景,霓虹灯,雨后街道 |
| 可爱的狗 | 金毛幼犬,歪头,大眼睛,草地上的阳光 |
技巧三:指定图片用途来约束比例
- 手机壁纸:
竖版构图,9:16 比例 - 公众号封面:
横版构图,16:9 比例 - 头像:
正方形构图,1:1 比例,简洁背景 - PPT 配图:
扁平插画风格,简洁干净,留白充足
技巧四:善用风格关键词
这些风格词可以快速改变画面质感:
- 写实类:写实摄影、电影级画质、8K 分辨率、超高清
- 插画类:扁平插画、矢量风格、日系插画、绘本风格
- 艺术类:油画、水彩、素描、版画、浮世绘
- 科技类:赛博朋克、未来主义、极简主义、霓虹灯
实用场景示例
场景一:自媒体文章配图
扁平插画风格,一个人坐在电脑前工作,桌上放着咖啡杯,窗外是城市夜景,暖色调,简洁干净,适合公众号文章配图
场景二:产品展示图
一双白色运动鞋,放在大理石台面上,柔和的工作室灯光,纯白背景,产品摄影风格,高清细节
场景三:PPT 背景图
抽象几何图形,蓝紫色渐变,科技感,留白充足,适合做 PPT 背景,16:9 比例
场景四:社交媒体头像
卡通风格头像,一只戴墨镜的柴犬,赛博朋克色调,霓虹灯背景,正方形构图
常见问题
Q:生成的图片版权归谁?
目前各平台政策不同。通义万相和 DALL·E 3 付费用户通常拥有商用版权;免费版可能有限制。使用前建议查看平台的用户协议。
Q:为什么 AI 画不好手和文字?
这是因为 AI 是通过像素统计规律生成图片的,对精细结构(手指数量、汉字笔画)的把控还不成熟。遇到这类问题,后期修补是最实用的解决方案。
Q:一张图生成要花多少钱?
通义万相有免费额度;DALL·E 3 在 ChatGPT Plus 中包含;Midjourney 最低 10 美元/月;Stable Diffusion 本地运行完全免费。日常使用的话,免费方案基本够用。
Q:同样 Prompt 每次生成的图一样吗?
不一样。AI 生成过程有随机性,同样的 Prompt 每次都会产生不同的结果。这也是为什么建议多试几次——可能第 3 张就比第 1 张好很多。
总结
AI 图片生成的核心就是:选工具 → 写 Prompt → 生成筛选 → 后期调整。不需要绘画基础,不需要设计经验,只要你能把脑海中的画面用文字描述出来,AI 就能帮你实现。
建议从通义万相或 DALL·E 3 开始,用上面的 Prompt 模板多练几次,很快你就能生成让人惊艳的图片了。
📖 相关文章
AI 代码审查入门:让 AI 帮你检查代码质量
学会用 AI 工具审查代码质量,从安全性、性能、可维护性三个维度发现问题并改进。四步完成代码审查,附提示词模板和实战示例。
AI 客户端接入指南:5 款主流工具对比与配置教程
对比 ChatGPT、Claude、Cursor、NextChat、LobeChat 五款主流 AI 客户端工具,手把手教你通过 API Key 接入,从注册到对话四步搞定。
向 AI 提问的技巧:Prompt Engineering 入门指南
同一个 AI,有人问出来的回答像废话,有人却能拿到高质量答案。区别在于你怎么问。本文教你万能提问公式和六个实用技巧,让 AI 每次都给你满意的回答。
💬 评论功能暂未开放,敬请期待