A meaningful text can be hidden inside another, completely different yet still coherent and plausible, text of the same length. For example, a tweet containing a harsh political critique could be embedded in a tweet that celebrates the same political leader, or an ordinary product review could conceal a secret manuscript. This uncanny state of affairs is now possible thanks to Large Language Models, and in this paper we present Calgacus, a simple and efficient protocol to achieve it. We show that even modest 8-billion-parameter open-source LLMs are sufficient to obtain high-quality results, and a message as long as this abstract can be encoded and decoded locally on a laptop in seconds. The existence of such a protocol demonstrates a radical decoupling of text from authorial intent, further eroding trust in written communication, already shaken by the rise of LLM chatbots. We illustrate this with a concrete scenario: a company could covertly deploy an unfiltered LLM by encoding its answers within the compliant responses of a safe model. This possibility raises urgent questions for AI safety and challenges our understanding of what it means for a Large Language Model to know something. -- Un testo di senso compiuto può essere nascosto all'interno di un altro testo completamente diverso, eppure coerente e plausibile, della stessa lunghezza. Ad esempio, un tweet che celebra un leader politico potrebbe celare un tweet che lo critica duramente, o un'anonima recensione di un prodotto potrebbe in realtà codificare un manoscritto segreto. Questa sconcertante possibilità è oggi alla nostra portata grazie ai Large Language Models (LLM); in questo articolo presentiamo Calgacus, un protocollo semplice ed efficiente per realizzarla. Mostriamo che anche modesti LLM open-source da 8 miliardi di parametri sono sufficienti per ottenere risultati di alta qualità, e che un messaggio lungo quanto questo abstract può essere codificato e decodificato su un comune portatile in pochi secondi. L'esistenza di tale protocollo dimostra un radicale disaccoppiamento del testo dall'intento del suo autore, erodendo ulteriormente la fiducia nella comunicazione scritta, già scossa dall'ascesa dei chatbot basati su LLMs. Illustriamo ciò con uno scenario concreto: un'azienda potrebbe offrire pubblicamente i servizi di un LLM senza filtri nascondendo le sue risposte all'interno di risposte apparentemente innocue generate da un LLM considerato sicuro. Questa possibilità solleva questioni urgenti per la sicurezza dell'Intelligenza Artificiale e sfida la nostra comprensione di cosa significhi, per un Large Language Model, sapere qualcosa.
翻译:一段有意义的文本可以被隐藏于另一段完全不同、但同样连贯合理的等长文本之中。例如,一条包含尖锐政治批评的推文可以被嵌入到歌颂同一位政治领袖的推文中,或一篇普通的产品评论可能隐藏着秘密手稿。这种离奇的局面如今因大型语言模型(LLM)而成为可能,本文提出一种简单高效的协议Calgacus来实现该目标。我们证明,即使是规模适中的80亿参数开源LLM也足以获得高质量结果,且如本摘要长度的消息可在笔记本电脑上实现秒级本地编解码。该协议的存在表明文本与作者意图之间出现了根本性脱钩,进一步侵蚀了本已因LLM聊天机器人兴起而动摇的书面通信信任。我们通过具体场景说明:企业可通过将无过滤LLM的答案编码至安全模型的合规响应中,从而隐蔽部署未受审查的LLM。这种可能性为AI安全提出了紧迫问题,并挑战了我们对大型语言模型"知晓"某事物本质的理解。