This paper presents SCHEMA (Structured Components for Harmonized Engineered Modular Architecture), a structured prompt engineering methodology specifically developed for Google Gemini 3 Pro Image. Unlike generic prompt guidelines or model-agnostic tips, SCHEMA is an engineered framework built on systematic professional practice encompassing 850 verified API predictions within an estimated corpus of approximately 4,800 generated images, spanning six professional domains: real estate photography, commercial product photography, editorial content, storyboards, commercial campaigns, and information design. The methodology introduces a three-tier progressive system (BASE, MEDIO, AVANZATO) that scales practitioner control from exploratory (approximately 5%) to directive (approximately 95%), a modular label architecture with 7 core and 5 optional structured components, a decision tree with explicit routing rules to alternative tools, and systematically documented model limitations with corresponding workarounds. Key findings include an observed 91% Mandatory compliance rate and 94% Prohibitions compliance rate across 621 structured prompts, a comparative batch consistency test demonstrating substantially higher inter-generation coherence for structured prompts, independent practitioner validation (n=40), and a dedicated Information Design validation demonstrating >95% first-generation compliance for spatial and typographical control across approximately 300 publicly verifiable infographics. Previously published on Zenodo (doi:10.5281/zenodo.18721380).


翻译:本文提出了SCHEMA(结构化组件协调工程模块化架构),这是一种专门为Google Gemini 3 Pro Image开发的结构化提示工程方法。与通用的提示指南或模型无关的建议不同,SCHEMA是一个建立在系统性专业实践基础上的工程化框架,其依据涵盖了约4,800张生成图像语料库中的850个已验证API预测,涉及六个专业领域:房地产摄影、商业产品摄影、编辑内容、故事板、商业活动以及信息设计。该方法引入了一个三层渐进系统(基础、中级、高级),可将从业者的控制范围从探索性(约5%)扩展到指令性(约95%);一个包含7个核心和5个可选结构化组件的模块化标签架构;一个带有明确路由规则至替代工具的决策树;以及系统记录的模型局限性及相应解决方案。关键发现包括:在621个结构化提示中,观察到91%的强制性规则遵从率和94%的禁止性规则遵从率;一项比较性批次一致性测试表明,结构化提示在代际间具有显著更高的连贯性;独立的从业者验证(n=40);以及一项专门的信息设计验证表明,在约300个可公开验证的信息图表中,对于空间和排版控制的首代遵从率超过95%。本文先前发表于Zenodo(doi:10.5281/zenodo.18721380)。

0
下载
关闭预览

相关内容

谷歌开源模型系列「Gemma」技术报告,中英文版
专知会员服务
47+阅读 · 2024年2月22日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
AmpliGraph:知识图谱表示学习工具包
专知
40+阅读 · 2019年4月6日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 今天13:45
【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
0+阅读 · 今天13:52
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 今天13:41
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 今天12:47
战争机器学习:数据生态系统构建(155页)
专知会员服务
6+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
谷歌开源模型系列「Gemma」技术报告,中英文版
专知会员服务
47+阅读 · 2024年2月22日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员