The Burrows--Wheeler transform is usually viewed as a clustering transform: it tends to group equal letters into long runs. We study the opposite extremal regime, where the BWT output is completely unclustered, that is, has as many equal-letter runs as positions. Known results imply, on the one hand, that the number of runs in the BWT of a Lyndon word can increase by at most a factor of two, and, on the other hand, that over every alphabet of size at least three completely unclustered BWT images exist in every length. This leads to the extremal problem lying between these two facts. For \(k\ge3\), let \(U_k(n)\) be the minimum cyclic run number of a primitive necklace of length \(n\) whose BWT has \(n\) runs. We prove the universal lower bound \(U_k(n)\ge\lceil n/2\rceil\), reduce the sharpness problem for one-cycle BWT images \(L\) to the Hamming identity \[ \cruns(\BWT^{-1}(L))=\dH(L,\sort(L)), \] and develop a natural multiset-of-necklaces relaxation with an explicit constant-cycle correction. We compute the small values, including the exceptional value \(U_k(6)=4\), prove a parity obstruction for the Parikh vectors of sharp examples, and determine the multiset relaxation exactly. Finally, for every prime \(p\equiv5\pmod8\) for which \(2\) is a primitive root modulo \(p\), we prove sharpness in the adjacent lengths \(p-1\) and \(p\). Under the corresponding Artin-type infinitude hypothesis, this gives infinitely many adjacent sharp pairs.


翻译:Burrows-Wheeler变换通常被视为一种聚集变换:它倾向于将相等字母分组为长游程。我们研究相反的极值区域,即BWT输出完全非聚集,其相等字母游程数与位置数相等。已知结果一方面表明,Lyndon词的BWT中游程数最多可增加一倍;另一方面,在至少包含三个字母的字母表上,任何长度下均存在完全非聚集的BWT像。这引出了介于这两个事实之间的极值问题。对于\(k\ge3\),设\(U_k(n)\)为长度为\(n\)且其BWT具有\(n\)个游程的本原项链的最小循环游程数。我们证明了通用下界\(U_k(n)\ge\lceil n/2\rceil\),将单周期BWT像\(L\)的尖锐性问题归约为Hamming恒等式\[ \cruns(\BWT^{-1}(L))=\dH(L,\sort(L)) \],并发展了一个具有显式常数周期校正的自然项链多重集松弛。我们计算了小数值,包括例外值\(U_k(6)=4\),证明了尖锐例子Parikh向量的奇偶性障碍,并精确确定了多重集松弛。最后,对于每个使得\(2\)是模\(p\)的原根的素数\(p\equiv5\pmod8\),我们证明了相邻长度\(p-1\)和\(p\)上的尖锐性。在相应的Artin型无穷性假设下,这给出了无穷多对相邻尖锐对。

0
下载
关闭预览

相关内容

【CMU博士论文】长度可外推的Transformer,149页pdf
专知会员服务
27+阅读 · 2024年6月30日
【ICML2024】揭示Graph Transformers 中的过全局化问题
专知会员服务
21+阅读 · 2024年5月27日
【ICML2024】少即是多:论图Transformers的过度全局化问题
专知会员服务
23+阅读 · 2024年5月12日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月29日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员