分词论文 - 专知

会员服务 ·

将一个汉字序列切分成一个一个单独的词

Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

Arxiv

0+阅读 · 6月16日

OTRO: Oblivious Tokenization Path with Square-Root ORAM

Arxiv

0+阅读 · 6月15日

ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling

Arxiv

0+阅读 · 6月16日

findsylls: A Language-Agnostic Toolkit for Syllable-Level Speech Tokenization and Embedding

Arxiv

0+阅读 · 6月15日

RepWAM: World Action Modeling with Representation Visual-Action Tokenizers

Arxiv

0+阅读 · 6月13日

LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization

Arxiv

0+阅读 · 6月14日

Equity with Efficiency: An Empirical Study of Tokenizers for Multilingual Large Language Models

Arxiv

0+阅读 · 6月13日

MotionVLA: Vision-Language-Action Model for Humanoid Motion

Arxiv

0+阅读 · 6月13日

FOUNDv2: Learning Unified User Quantized Tokenizers for User Representation

Arxiv

0+阅读 · 6月15日

Emergent retokenization symmetry in large language models: phenomenology and applications

Arxiv

0+阅读 · 6月14日

IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

Arxiv

0+阅读 · 6月12日

Incremental BPE Tokenization

Arxiv

0+阅读 · 5月29日

Beyond Perplexity: UTF-8 Validity in Byte-aware Language Models

Arxiv

0+阅读 · 6月12日

DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion

Arxiv

0+阅读 · 6月7日

SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers

Arxiv

0+阅读 · 6月9日

参考链接

微信扫码咨询专知VIP会员