SillyTavern 文生图完整指南:三大后端 + 三种触发方式 + 国内用户特殊挑战

SillyTavern 中文教程站编辑组·最后更新 2026-05-18

SillyTavern 文生图完整指南。集成 Stable Diffusion / NovelAI / DALL-E 3 三大后端,角色头像生成、场景插图、动态画面 3 种触发方式,中国大陆用户的 ComfyUI 本地方案、付费云端方案、API 中转方案对比,带提示词模板与避坑清单。

SillyTavern 文生图完整指南:三大后端 + 三种触发方式 + 国内用户特殊挑战

SillyTavern 内置的图像生成扩展是中文 AI 角色扮演圈最被低估的功能之一。配置好之后,你不只能让 AI 描写场景——还能让它直接画出来。本文从零讲清楚后端选择、3 种触发方式、提示词方法论、角色一致性技巧,以及国内用户最常踩的坑。

谁应该看这篇

已经能在 SillyTavern 跑通 AI 对话,想再上一台阶玩"图文沉浸式"
听说"AI 画图很复杂",但实际不知道从哪下手
想让 AI 在合适的时刻自动配图,而不是手动一张张画
国内用户,搞不清显卡门槛 / 网络问题 / 中转商风险

如果你还没跑通基础对话,先看 30 分钟极速上手把基础打好,再回来。

核心机制:SillyTavern 不画图,它"调度"画图

理解这一点是看懂全文的钥匙。

SillyTavern 本身是 调度器,不是 绘图引擎。

你 / AI → SillyTavern → 画图后端 → 返回图像 → 显示在聊天里

后端可以是:

你电脑上跑的 Stable Diffusion WebUI 或 ComfyUI(本地后端)
云端付费 API(OpenAI / FLUX / Stability AI / NovelAI 等)
免费志愿者池 Stable Horde(慢但白嫖)

这意味着两件事:

SillyTavern 配置极简(填一个后端地址就完了),复杂度全在选哪种后端
你的画图能力 = 后端能力,SillyTavern 不会"提升画质"

三大后端类型客观对比

维度	本地 SD WebUI	本地 ComfyUI	云端付费 API	免费 Horde
上手难度	⭐⭐ 简单	⭐⭐⭐⭐ 进阶	⭐ 最简单	⭐ 最简单
显卡要求	6GB+ 显存	6GB+ 显存	无	无
一次性成本	显卡费	显卡费	0	0
长期成本	电费	电费	按量计费	0
出图速度	5-30 秒	5-30 秒	10-60 秒	几分钟到几十分钟
模型生态	极丰富	最丰富	受官方限制	中等
内容自由度	完全自由	完全自由	严格限制	中等
隐私	100% 本地	100% 本地	提示词上传云端	提示词上传公共池

三句话决策法

有中端显卡(显存 ≥ 6GB)+ 想自由折腾 → 本地 ComfyUI
有显卡但不想学复杂工作流 → 本地 SD WebUI
没有显卡 + 不在乎付费 → 云端 API
没有显卡 + 想白嫖 → Stable Horde

实战 1:本地 SD WebUI 接入(8 步)

最经典、最稳定,也是国内中文社区资料最多的方案。

步骤 1-3:启动 SD WebUI 并打开 API

确保你已经成功跑通 SD WebUI 本身(本文不教 SD WebUI 的安装,那是单独主题)。

启动时必须带上 --api 参数:

Windows:编辑 webui-user.bat,在 set COMMANDLINE_ARGS= 后加 --api
Linux/macOS:./webui.sh --api

SD WebUI 默认监听 http://127.0.0.1:7860,启动后保持窗口开着。

步骤 4-6:在 SillyTavern 中接入

进入 SillyTavern,点右上角扩展菜单(拼图图标)
找到 "Image Generation" 扩展并展开
API 类型:选 Stable Diffusion WebUI
服务器 URL:填 http://127.0.0.1:7860
点 Connect 按钮,显示 "Connected" 即成功

步骤 7-8:测试一张

聊天框输入 /sd 一只猫坐在窗台上,水彩画风格,等待 5-30 秒,图就出来了。

如果失败,看下方"故障排查"章节。

实战 2:本地 ComfyUI 接入(6 步)

更灵活、更强大,但学习曲线更陡。

ComfyUI 是节点式工作流图形化工具——把"加载模型 → 编码提示词 → 采样 → 解码 → 保存"每一步都做成节点,你拖拽连接。

步骤 1:启动 ComfyUI

正常启动 ComfyUI,无需任何特殊参数(API 默认开启)。默认监听 http://127.0.0.1:8188。

步骤 2-3:SillyTavern 中接入

扩展面板 → Image Generation
API 类型:选 ComfyUI
服务器 URL:http://127.0.0.1:8188
点 Connect

步骤 4-5:选择默认工作流

连接成功后,Workflow 下拉菜单选 Default_Comfy_Workflow.json。这是 SillyTavern 自带的基础文生图工作流,直接能用。

如果你想用自己的工作流:

在 ComfyUI 里搭建并测试通过
开启 ComfyUI 的"开发者模式"(设置里)
点 Save (API Format) 下载 JSON
回 SillyTavern,Create New Workflow,粘贴 JSON

步骤 6:测试

/sd test,出图即成功。

实战 3:云端 API 接入(5 选 1)

完全没显卡的用户的救星。

选项 A:OpenAI DALL-E 系列

优点:质量稳定,API 文档完善
缺点:严格内容审查,价格不低
配置:API 类型 选 OpenAI,填你的 OpenAI API key

选项 B:Black Forest Labs FLUX

优点:目前画质标杆之一
缺点:贵,需要 BFL 账号
配置:API 类型 选 Black Forest Labs

选项 C:Stability AI 官方

优点:模型作者亲生,API 最早
缺点:贵,审查较严

选项 D:NovelAI

优点:动漫风格圈内首选,提示词系统强大
缺点:海外服务,国内访问困难;需 NAI 订阅
国内用户经常配合中转使用(见后文国内挑战章节)

选项 E:Stable Horde(免费!)

优点:完全免费,无需信用卡
缺点:志愿者池排队,慢的时候要等几十分钟
适合:偶尔想画一张玩玩,不在乎速度
配置:API 类型 选 Stable Horde,可以选填 anonymous 或注册 key 提速

三种触发方式

配置好后端,有三种方式让图出来。

方式 1:魔杖菜单(图形化,最直观)

聊天界面右上角,点魔杖图标
选 Image Generation
选生成模式:
- Character:画当前对话的 AI 角色
- Self:画用户自己(基于 Persona 描述)
- Scene:画当前场景(基于最近几条消息)
- Raw Last Message:基于最后一条消息生成
- Free Mode:你直接输入提示词
点 Generate,图自动插入聊天

方式 2:`/sd` 斜杠命令(最快)

直接在聊天框输入:

/sd 你的提示词

进阶用法:

/sd character          # 画当前角色
/sd self               # 画用户
/sd scene              # 画场景
/sd background         # 生成背景图
/sd raw=...            # 不带任何模板,纯提示词出图

加负面提示词:

/sd negative=低质量,模糊 一只可爱的猫,水彩画

方式 3:函数调用自动生成(最沉浸)

让 AI 在合适时刻自动决定要画图。

扩展面板 → Image Generation → 勾选 Interactive Mode / 函数调用
你的对话模型必须支持函数调用(Claude / GPT-4o 系列等)
在聊天里说"展示一下你现在的样子"或"画一下我们现在的房间",AI 会自动触发画图

这种方式最沉浸,但需要相对强的对话模型才能正确判断时机,弱模型会乱触发或永远不触发。

提示词工程方法论(不教具体 tag,教思路)

提示词工程是单独的学科,本节只讲通用思路。具体的 tag 词典请去:

Danbooru wiki(动漫风格)
各模型官方文档

三层结构法

一个有效的提示词通常分三层:

[质量层] [风格层] [内容层]

例:
  masterpiece, best quality, highly detailed,    ← 质量层(固定)
  anime style, watercolor,                       ← 风格层
  1girl, long hair, smile, sitting in cafe       ← 内容层

负面提示词

负面提示词排除"你不想要的":

lowres, bad anatomy, bad hands, blurry, jpeg artifacts,
worst quality, low quality, signature, watermark

新手把这一串当模板抄上,效果立刻提升一档。

不要踩的坑

提示词越多≠越好:超过 75 个 token 后权重会下降,精简比堆砌强
正负相互覆盖:同一个词同时出现在正面和负面 = 0 效果
追求"超详细描述":模型理解力有限,过多细节反而让画面混乱
照抄别人的画师串:不同模型的风格 tag 不通用,SDXL 系画师串拿到 SD 1.5 完全无效

角色一致性(进阶痛点)

新手最快遇到的痛:每次生成同一个角色都长得不一样。三种解决方案,从简单到复杂:

方案 1:固定 Seed + 提示词模板(免费)

在角色信息里填详细的"外貌描述"(头发颜色、瞳色、典型服装等)作为图像生成前缀。SillyTavern 会自动加到每次生成的提示词前。

优点:简单
缺点:同一描述还是会画出不同人

方案 2:IP-Adapter(本地 ComfyUI 进阶)

IP-Adapter 是一个让模型"参考一张图"再生成的技术。你给它一张你定义好的角色头像,它会在新生成时尽量保持五官一致。

需要在 ComfyUI 里搭工作流(网上教程多)。

方案 3:Auto Illustrator 扩展(自动配图)

第三方 SillyTavern 扩展,在 AI 回复时自动在合适时刻插入插图。

仓库地址:github.com/gamer-mitsuha/sillytavern-auto-illustrator

安装方式:

SillyTavern → 扩展菜单 → Install Extension
粘贴上面的 URL
安装完成后,在扩展列表里找到 Auto Illustrator,启用并配置

国内用户特殊挑战(客观说明,不推荐具体商家)

国内用户配置文生图后端时,会遇到 3 个典型问题。我们客观说明,你自己评估方案。

挑战 1:本地显卡门槛

Stable Diffusion 系列模型对显卡的要求:

极简凑合:6GB 显存,跑得动但慢、分辨率受限
舒适:12GB+ 显存,流畅出图
专业:24GB+ 显存,大模型 + 高分辨率 + 批量

如果你的电脑没有合适显卡,不要硬上——用云端 / Horde 即可。

挑战 2:海外 AI 服务的网络访问

OpenAI / FLUX / NovelAI 等海外服务,国内直接访问会:

速度极慢或频繁超时
部分服务地区屏蔽
需要科学上网

可选方案:

方案 A:用国际信用卡或 PayPal 直接订阅

最稳,价格最透明,数据隐私最高。但需要工具能稳定访问。

方案 B:使用国内 NAI / SD 中转服务

市面上存在多家中转,选择时务必评估:

服务商透明度(是否有备案、客服、合规声明)
价格合理性(每次生成 0.01-0.05 元为常见区间,异常便宜要警惕)
隐私政策(是否会保存你的提示词或生成结果)
跑路风险(预付金额建议先试水,不要一次充很多)
用户评价(在公开社区搜真实用户反馈)

本站不推荐任何具体中转商,因为这个市场频繁洗牌,推荐 = 给用户挖坑。

方案 C:Stable Horde 免费

慢但完全免费,适合偶尔玩。

挑战 3:NSFW 内容的合规边界

如果你打算生成包含成人内容的图像:

本地后端:技术上完全自由,但请务必遵守当地法律,不分发不传播
云端官方 API:OpenAI / Stability AI / FLUX 全部明确禁止 NSFW
国内中转:某些中转不限制但属于灰色地带,自负风险

我们站点定位为纯公益教程,不提供任何 NSFW 内容引导,不发布具体 NSFW 提示词或画师 tag。如果你需要这方面的资源,请自行去对应社区寻找。

5 个最常见的误区

误区 1:"装上 SillyTavern 就能画图了"

错。SillyTavern 是调度器,必须配一个后端才能画。

误区 2:"AI 画图就是输入几个字让它画"

错。出好图 = 提示词工程 + 负面提示词 + 模型选择 + 参数调整,有学习曲线。

误区 3:"贵的云端 API 一定比本地好"

不一定。本地 SDXL + 一个好的 finetune 模型,在动漫风格上可能比 DALL-E 还好。云端的优势主要是省心 + 不用显卡,不是绝对画质。

误区 4:"中转商是国内用户唯一选择"

错。除了中转,还有:

直接订阅(用国际支付方式)
Stable Horde 免费
自己装本地 ComfyUI

误区 5:"装了文生图就能让所有 AI 自动配图"

不一定。自动函数调用要求 AI 模型本身支持 function calling(GPT-4o / Claude 系列等),弱模型只能用斜杠命令或魔杖菜单手动触发。

常见问题速查

Q1:SD WebUI 显示连接失败?

检查:

是否带 --api 启动?
端口是否 7860?
试试 http://localhost:7860 替换 127.0.0.1:7860
防火墙是否拦截

Q2:ComfyUI 工作流报"missing node"?

工作流里有缺失的节点。多数情况下需要在 ComfyUI 里装对应自定义节点。如果是基础工作流,先用 Default_Comfy_Workflow.json 测试。

Q3:生成的图和描述不符?

提示词不够具体(用三层结构)
CFG Scale 设太高或太低(常用 7-10)
步数不够(常用 25-40)
模型选择不对(动漫题材选动漫模型,写实选写实模型)
加详细的负面提示词

Q4:角色每次画都不一样?

正常的,见前面"角色一致性"章节。三种方案选一个用。

Q5:云端 API 报"content policy violation"?

提示词触发了官方内容审查。改用更中性的描述,或换支持 NSFW 的本地后端。

Q6:Stable Horde 排队太久?

正常的,这是免费志愿者池。考虑:

上 Horde 网站充点 kudos 提速(其实也是免费可获取的)
改用本地或付费云端

Q7:画图速度慢怎么办?

本地:

升级显卡
降低分辨率(从 1024×1024 降到 768×768 立刻快一倍)
减少步数(40 → 25)
用 Turbo / LCM 系列快速模型

云端:网络问题为主,改时段或换节点。

Q8:可以让 AI 在对话过程中自动配图吗?

可以。两种方案:

SillyTavern 内置的 Interactive Mode(扩展面板里勾选)
装 Auto Illustrator 扩展

效果取决于你的对话模型够不够聪明。

接下来去哪

没装过 SillyTavern → 30 分钟极速上手
想了解扩展生态 → 必装扩展 TOP 10
AI 经常报错 → Valid 但 500 完整排查
AI 总是失忆 → 记忆插件 4 家横评
想玩长篇剧情 → 长对话失忆终极方案

常见问题

我没显卡能玩吗?

能。云端 API(OpenAI / FLUX / NovelAI 等)和免费的 Stable Horde 都不需要显卡。Horde 完全免费但慢,云端 API 按量计费但速度稳定。

SD WebUI 和 ComfyUI 选哪个?

新手选 SD WebUI(界面友好,网上教程多),进阶玩家选 ComfyUI(节点式工作流,自由度极高,支持复杂技术如 IP-Adapter / ControlNet)。

国内中转商靠谱吗?

市场鱼龙混杂,频繁洗牌。本站不推荐任何具体中转,因为推荐 = 给用户挖坑。选择时务必评估透明度、价格合理性、隐私政策、跑路风险,先少充值试水。

为什么角色每次画的样子不一样?

这是 AI 绘图的本质特点。三种解决方案:(1)固定 Seed + 详细外貌提示词模板(免费);(2)本地 ComfyUI + IP-Adapter 参考图(进阶);(3)Auto Illustrator 扩展自动配图。

出图慢怎么优化?

本地:降低分辨率(1024→768 快一倍)、减少步数(40→25)、用 LCM/Turbo 系列快速模型、升级显卡。云端:换时段、换网络节点。

可以让 AI 自动决定何时画图吗?

可以。开 Interactive Mode 函数调用功能,要求对话模型支持 function calling(GPT-4o / Claude 系列等)。或者装 Auto Illustrator 扩展自动在合适时刻插图。弱对话模型不要开,会乱触发。

提示词要怎么写效果好?

三层结构:质量词(masterpiece, best quality)+ 风格词(anime/watercolor/photorealistic)+ 内容词(具体画什么)。配套负面提示词排除不想要的。不要超过 75 个 token,精简比堆砌强。

云端 API 报内容违规怎么办?

OpenAI / Stability AI / FLUX 全部明确禁 NSFW,提示词触发审查会被拒。改用更中性的描述,或换本地后端(技术自由,但请遵守当地法律)。

SillyTavern 文生图完整指南:三大后端 + 三种触发方式 + 国内用户特殊挑战

谁应该看这篇

核心机制:SillyTavern 不画图,它"调度"画图

三大后端类型客观对比

三句话决策法

实战 1:本地 SD WebUI 接入(8 步)

步骤 1-3:启动 SD WebUI 并打开 API

步骤 4-6:在 SillyTavern 中接入

步骤 7-8:测试一张

实战 2:本地 ComfyUI 接入(6 步)

步骤 1:启动 ComfyUI

步骤 2-3:SillyTavern 中接入

步骤 4-5:选择默认工作流

步骤 6:测试

实战 3:云端 API 接入(5 选 1)

选项 A:OpenAI DALL-E 系列

选项 B:Black Forest Labs FLUX

选项 C:Stability AI 官方

选项 D:NovelAI

选项 E:Stable Horde(免费!)

三种触发方式

方式 1:魔杖菜单(图形化,最直观)

方式 2:/sd 斜杠命令(最快)

方式 3:函数调用自动生成(最沉浸)

提示词工程方法论(不教具体 tag,教思路)

三层结构法

负面提示词

不要踩的坑

角色一致性(进阶痛点)

方案 1:固定 Seed + 提示词模板(免费)

方案 2:IP-Adapter(本地 ComfyUI 进阶)

方案 3:Auto Illustrator 扩展(自动配图)

国内用户特殊挑战(客观说明,不推荐具体商家)

挑战 1:本地显卡门槛

挑战 2:海外 AI 服务的网络访问

挑战 3:NSFW 内容的合规边界

5 个最常见的误区

误区 1:"装上 SillyTavern 就能画图了"

误区 2:"AI 画图就是输入几个字让它画"

误区 3:"贵的云端 API 一定比本地好"

误区 4:"中转商是国内用户唯一选择"

误区 5:"装了文生图就能让所有 AI 自动配图"

常见问题速查

Q1:SD WebUI 显示连接失败?

Q2:ComfyUI 工作流报"missing node"?

Q3:生成的图和描述不符?

Q4:角色每次画都不一样?

Q5:云端 API 报"content policy violation"?

Q6:Stable Horde 排队太久?

Q7:画图速度慢怎么办?

Q8:可以让 AI 在对话过程中自动配图吗?

接下来去哪

常见问题

方式 2:`/sd` 斜杠命令(最快)