Conditional Graph Diffusion for Negotiation Support: Overcoming Discrete Infeasibility and Preference Elicitation Gaps

Traditional bilateral negotiation support systems search over discrete allocation spaces. This approach encounters structural infeasibility when no discrete outcome satisfies individual rationality. It fails to incorporate preference signals embedded in natural language dialogue. This study introduces the Conditional Graph Diffusion (CGD) framework to generate recommendations in a continuous bilateral utility space. A GATv2 encoder captures comparative bilateral preference structure through dynamic attention. A cross-attention mechanism fuses strategic embeddings with transformer-based dialogue representations into a unified conditioning context for a denoising diffusion probabilistic model. An analytically derived normative guidance gradient applies at inference time. It injects per-step monotonic corrections at each reverse diffusion step, steering generation toward individual rationality, security proximity, and equitability without retraining. Evaluation across synthetic, CaSiNo, and Deal or No Deal corpora confirms accumulated corrections achieve an individual rationality rate of at least 0.997, a security gap of at most 0.009, and a symmetry gap within 0.15. Relative to the Nash Bargaining Solution, CGD reduces security gaps by up to 70-fold at a maximum welfare cost of 3%. An ablation study demonstrates naive constraint minimization without a learned generative prior fails normative compliance across heterogeneous corpora. A controlled misrepresentation experiment establishes the architectural capacity of cross-attention fusion to exploit dialogue signals. An inference-time welfare guidance mechanism decouples normative compliance from welfare maximization, recovering Pareto efficiency on CaSiNo without retraining while preserving individual rationality.

翻译：传统双边谈判支持系统在离散分配空间中进行搜索。当没有离散结果满足个体理性时，此类方法会遭遇结构性不可行性，且未能融入自然语言对话中蕴含的偏好信号。本研究提出条件图扩散（CGD）框架，在连续双边效用空间中生成建议。GATv2编码器通过动态注意力捕获比较性双边偏好结构；交叉注意力机制将策略嵌入与基于Transformer的对话表示融合为统一的条件上下文，供去噪扩散概率模型使用。理论推导的规范引导梯度在推理时应用，在每个反向扩散步骤中注入逐步单调校正，无需重新训练即可将生成结果导向个体理性、安全邻近性和公平性。在合成语料库、CaSiNo和《一锤定音》数据集上的评估证实：累积校正实现了至少0.997的个体理性率、至多0.009的安全缺口以及0.15以内的对称缺口。相比纳什讨价还价解，CGD在最大福利成本3%的条件下将安全缺口缩小了高达70倍。消融研究表明，缺乏学习生成先验的朴素约束最小化无法在异质语料库上实现规范遵从。控制性虚假陈述实验确立了交叉注意力融合在利用对话信号方面的架构能力。推理时福利引导机制将规范遵从与福利最大化解耦，在保持个体理性的前提下无需重新训练即可在CaSiNo上恢复帕累托效率。