Hijacking Text Heritage: Hiding the Human Signature through Homoglyphic Substitution - 专知论文

会员服务 ·

0

置换 · INFORMS · DATE · 在线 · 估计/估计量 ·

Hijacking Text Heritage: Hiding the Human Signature through Homoglyphic Substitution

翻译：标题：文本遗产劫持：通过同形替代隐藏人类签名

Robert Dilworth

from arxiv, 30 pages, 9 figures

In what way could a data breach involving government-issued IDs such as passports, driver's licenses, etc., rival a random voluntary disclosure on a nondescript social-media platform? At first glance, the former appears more significant, and that is a valid assessment. The disclosed data could contain an individual's date of birth and address; for all intents and purposes, a leak of that data would be disastrous. Given the threat, the latter scenario involving an innocuous online post seems comparatively harmless--or does it? From that post and others like it, a forensic linguist could stylometrically uncover equivalent pieces of information, estimating an age range for the author (adolescent or adult) and narrowing down their geographical location (specific country). While not an exact science--the determinations are statistical--stylometry can reveal comparable, though noticeably diluted, information about an individual. To prevent an ID from being breached, simply sharing it as little as possible suffices. Preventing the leakage of personal information from written text requires a more complex solution: adversarial stylometry. In this paper, we explore how performing homoglyph substitution--the replacement of characters with visually similar alternatives (e.g., "h" $\texttt{[U+0068]}$ $\rightarrow$ "h" $\texttt{[U+04BB]}$)--on text can degrade stylometric systems.

翻译：摘要：政府颁发的身份证件（如护照、驾照等）的数据泄露，与匿名社交媒体平台上一次随意的自愿披露相比，其危害程度有何不同？乍看之下，前者似乎更为严重，这一判断也合情合理。泄露的数据可能包含个人的出生日期和地址；从任何实际意义上看，此类数据泄露都将造成灾难性后果。基于此威胁，后一种涉及无害在线帖子的情景似乎相对安全——真是如此吗？通过该帖子及同类文本，司法语言学鉴识者可通过风格计量分析揭示等价信息：推断作者的年龄段（青少年或成人）并缩小其地理位置范围（特定国家）。尽管并非精确科学（其结论具有统计性质），但风格计量学仍能揭示个体具有可比性但明显稀释的信息。防止身份证件被泄露，只需尽可能减少共享即可；而阻止书面文本泄露个人信息则需要更复杂的解决方案：对抗性风格计量学。本文探究了在同形替代——即用视觉相似字符替换原字符（例如，“h”[U+0068] →“h”[U+04BB]）——处理文本后，如何削弱风格计量系统的效能。

0

相关内容

《生成人工智能对抗性使用对国土安全的影响》美国土安全部最新99页报告

《生成人工智能对抗性使用对国土安全的影响》美国土安全部最新99页报告

专知会员服务

22+阅读 · 2025年1月21日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

专知会员服务

28+阅读 · 2022年10月7日

【完整译文】《协同攻击：网络战和虚假信息攻击同步化》基于兵棋推演探索协调配合的网络战和虚假信息活动

【完整译文】《协同攻击：网络战和虚假信息攻击同步化》基于兵棋推演探索协调配合的网络战和虚假信息活动

专知会员服务

59+阅读 · 2022年9月5日

《基于像素的数字图像伪造检测的被动方法》140页博士论文

《基于像素的数字图像伪造检测的被动方法》140页博士论文

专知会员服务

21+阅读 · 2022年7月25日

图数据上的隐私攻击与防御技术

图数据上的隐私攻击与防御技术

专知会员服务

28+阅读 · 2022年4月28日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

65+阅读 · 2022年4月26日

基因组数据隐私保护理论与方法综述

专知会员服务

16+阅读 · 2021年8月6日

恶意文档检测研究综述

专知会员服务

19+阅读 · 2021年6月10日

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

专知

16+阅读 · 2020年1月9日

互联网上那些防不胜防的人肉搜索技巧 | 附教程和工具

互联网上那些防不胜防的人肉搜索技巧 | 附教程和工具

黑白之道

126+阅读 · 2019年10月22日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

【专题】美国隐私立法进展的总体分析

【专题】美国隐私立法进展的总体分析

蚂蚁金服评论

11+阅读 · 2019年4月25日

经典论文复现 | 基于标注策略的实体和关系联合抽取

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Hijacking Text Heritage: Hiding the Human Signature through Homoglyphic Substitution

Arxiv

0+阅读 · 6月22日

CAPED: Context-Aware Privacy Exposure Defense for Mobile GUI Agents

Arxiv

0+阅读 · 6月16日

Information Leakage Detection through Approximate Bayes-optimal Prediction

Arxiv

0+阅读 · 6月15日

DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

Arxiv

0+阅读 · 6月5日

What Your Posts Reveal: A Benchmark and Agentic Framework for User-Level Privacy Leakage on Social Media

Arxiv

0+阅读 · 6月5日

Credential Disclosure in (EU) Digital Identity Wallets: Privacy Risks and Practical Mitigations

Arxiv

0+阅读 · 6月4日

Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection

Arxiv

0+阅读 · 5月29日

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Arxiv

0+阅读 · 5月19日

Deceptive Cookies: Consent by Design -- A Mixed Methods Study

Arxiv

0+阅读 · 5月14日

Unveiling Unicode's Unseen Underpinnings in Undermining Authorship Attribution

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

估计/估计量

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

1+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

11+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

《生成人工智能对抗性使用对国土安全的影响》美国土安全部最新99页报告

《生成人工智能对抗性使用对国土安全的影响》美国土安全部最新99页报告

专知会员服务

22+阅读 · 2025年1月21日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

专知会员服务

28+阅读 · 2022年10月7日

【完整译文】《协同攻击：网络战和虚假信息攻击同步化》基于兵棋推演探索协调配合的网络战和虚假信息活动

【完整译文】《协同攻击：网络战和虚假信息攻击同步化》基于兵棋推演探索协调配合的网络战和虚假信息活动

专知会员服务

59+阅读 · 2022年9月5日

《基于像素的数字图像伪造检测的被动方法》140页博士论文

《基于像素的数字图像伪造检测的被动方法》140页博士论文

专知会员服务

21+阅读 · 2022年7月25日

图数据上的隐私攻击与防御技术

图数据上的隐私攻击与防御技术

专知会员服务

28+阅读 · 2022年4月28日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

65+阅读 · 2022年4月26日

基因组数据隐私保护理论与方法综述

专知会员服务

16+阅读 · 2021年8月6日

恶意文档检测研究综述

专知会员服务

19+阅读 · 2021年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

GNN跨域综述：从消息传递到图基础模型

巡飞弹与反无人机系统——现代战场的两大支柱

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

相关资讯

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

专知

16+阅读 · 2020年1月9日

互联网上那些防不胜防的人肉搜索技巧 | 附教程和工具

互联网上那些防不胜防的人肉搜索技巧 | 附教程和工具

黑白之道

126+阅读 · 2019年10月22日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

【专题】美国隐私立法进展的总体分析

【专题】美国隐私立法进展的总体分析

蚂蚁金服评论

11+阅读 · 2019年4月25日

经典论文复现 | 基于标注策略的实体和关系联合抽取

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Hijacking Text Heritage: Hiding the Human Signature through Homoglyphic Substitution

Arxiv

0+阅读 · 6月22日

CAPED: Context-Aware Privacy Exposure Defense for Mobile GUI Agents

Arxiv

0+阅读 · 6月16日

Information Leakage Detection through Approximate Bayes-optimal Prediction

Arxiv

0+阅读 · 6月15日

DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

Arxiv

0+阅读 · 6月5日

What Your Posts Reveal: A Benchmark and Agentic Framework for User-Level Privacy Leakage on Social Media

Arxiv

0+阅读 · 6月5日

Credential Disclosure in (EU) Digital Identity Wallets: Privacy Risks and Practical Mitigations

Arxiv

0+阅读 · 6月4日

Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection

Arxiv

0+阅读 · 5月29日

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Arxiv

0+阅读 · 5月19日

Deceptive Cookies: Consent by Design -- A Mixed Methods Study

Arxiv

0+阅读 · 5月14日

Unveiling Unicode's Unseen Underpinnings in Undermining Authorship Attribution

Arxiv

0+阅读 · 5月6日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员