This paper proposes an agent-based approach toward a more natural interface between humans and machines. Large language models equipped with tools and the communication standard OPC UA are utilized to control machines in natural language. Instead of touch interaction, which is currently the state-of-the-art medium for interaction in operations, the proposed approach enables operators to talk or text with machines. This allows commands such as 'Please decrease the temperature by 20 % in machine 1 and start the cleaning operation in machine 2.' The large language model receives the user input and selects one of three predefined tools that connect to an OPC UA server and either change or read the value of a node. Afterwards, the result of the tool execution is passed back to the language model, which then provides a final response to the user. The approach is universally designed and can therefore be applied to any machine that supports the OPC UA standard. The large language model is neither fine-tuned nor requires training data, only the relevant machine credentials and a parameter dictionary are included within the system prompt. The tool-calling ability and their design is evaluated on a demonstrator setup with a Siemens S7-1500 programmable logic controller with four machine parameters. Fifty synthetically generated commands on five different models were tested and the results demonstrate high success rate, with proprietary GPT-5 models achieving accuracies between 96.0 % and 98.0 %, and open-weight models reaching up to 90.0 %. Afterwards the approach was transferred to a deployed spay-coating machine. The proposed concept is supposed to contribute in advancing natural interaction in industrial human-machine interfaces.


翻译:本文提出一种基于智能体的方法,旨在实现更自然的人机交互界面。该方法利用配备工具功能的大语言模型与通信标准OPC UA,实现以自然语言控制机器。当前工业操作中最先进的交互媒介是触控交互,而所提方法使操作员能够通过语音或文本与机器对话。这使得诸如“请将1号机温度降低20%并启动2号机的清洁操作”等指令成为可能。大语言模型接收用户输入后,从三个预定义工具中选择其一,这些工具连接到OPC UA服务器以修改或读取节点数值。工具执行结果随后传回语言模型,由其生成最终响应反馈给用户。该方案采用通用化设计,可应用于任何支持OPC UA标准的设备。大语言模型无需微调或训练数据,仅需在系统提示中包含相关设备凭证与参数字典。在配备西门子S7-1500可编程逻辑控制器(含四个机器参数)的演示装置上,对工具调用能力及其设计进行了评估。通过对五个不同模型测试五十条合成生成的指令,结果表明该方法具有较高的成功率:专有GPT-5模型准确率达96.0%至98.0%,开源模型最高可达90.0%。随后该方法被移植到已部署的喷涂设备进行验证。所提出的概念有望为推动工业人机界面自然交互的发展作出贡献。

0
下载
关闭预览

相关内容

面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
CCCF专题:史元春 | 自然人机交互
中国计算机学会
25+阅读 · 2018年5月18日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员