Synthetic data is increasingly critical for contact centers, where privacy constraints and data scarcity limit the availability of real conversations. However, generating synthetic dialogues that are realistic and useful for downstream applications remains challenging. In this work, we benchmark multiple generation strategies guided by structured supervision on call attributes (Intent Summaries, Topic Flows, and Quality Assurance (QA) Forms) across multiple languages. To test downstream utility, we evaluate synthetic transcripts on an automated quality assurance (AutoQA) task, finding that prompts optimized on real transcripts consistently outperform those optimized on synthetic transcripts. These results suggest that current synthetic transcripts fall short in capturing the full realism of real agent-customer interactions. To highlight these downstream gaps, we introduce a diagnostic evaluation framework comprising 17 metrics across four dimensions: (1) Emotional and Sentiment Arcs, (2) Linguistic Complexity, (3) Interaction Style, and (4) Conversational Properties. Our analysis shows that even with structured supervision, current generation strategies exhibit measurable deficiencies in sentiment fidelity, disfluency modeling, behavioral variation, and conversational realism. Together, these results highlight the importance of diagnostic, metric-driven evaluation for synthetic conversation generation intended for downstream applications.


翻译:在联络中心领域,隐私限制和数据稀缺制约了真实对话的可用性,合成数据因此变得日益重要。然而,生成既真实又能有效服务于下游应用的合成对话仍具挑战。本研究基于结构化监督(涵盖通话属性:意图摘要、话题流和质量保证表单),对多种语言下的多种生成策略进行了基准测试。为检验下游效用,我们在自动化质量保证任务上评估了合成转录文本,发现基于真实转录文本优化的提示词持续优于基于合成转录文本优化的提示词。这些结果表明,当前的合成转录文本在捕捉真实坐席-客户互动的完整真实性方面仍存在不足。为揭示这些下游差距,我们引入了一个诊断性评估框架,该框架包含四个维度的17项指标:(1)情感与情绪弧线,(2)语言复杂度,(3)交互风格,以及(4)对话属性。我们的分析表明,即使在结构化监督下,当前的生成策略在情感保真度、非流利性建模、行为变异性和对话真实性方面仍存在可量化的缺陷。综上所述,这些结果凸显了针对下游应用的合成对话生成进行诊断性、指标驱动的评估的重要性。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
42+阅读 · 2024年12月30日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
基于文档的对话技术研究
专知会员服务
20+阅读 · 2022年2月20日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《利用合成数据生成加强军事决策支持》
专知会员服务
42+阅读 · 2024年12月30日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
基于文档的对话技术研究
专知会员服务
20+阅读 · 2022年2月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员