Loglinear modelling of huge contingency tables - 专知论文

会员服务 ·

0

列联表 · 单元 · 高维 · 分类数据 · 表示 ·

Loglinear modelling of huge contingency tables

翻译：高维列联表的对数线性建模

Veronica Vinciotti,Ernst C. Wit

Contingency tables are a fundamental representation of multivariate categorical data. As the size of the contingency table grows exponentially with the number of variables, even a moderate number of variables, each with a moderate number of levels, will result in a huge number of cells, the majority of which will remain empty even with a significant amount of data. We propose an efficient method for inferring higher-order loglinear models in such scenarios. We tackle the computational challenge by using only a sample of the empty cells and deriving the associated likelihood under a Poisson sampling scheme. This allows us to define an iteratively re-weighted least squares (IRWLS) algorithm for parameter estimation. Under the extreme setting of huge contingency tables, we show how standard Poisson regression on the sampled data converges to this IRWLS scheme, when the number of sampled empty cells exceeds the number of observations. We illustrate the method with an analysis of data from the General Social Survey, which consists of 15014 observations in a 70-dimensional contingency table with a total of 2.6 x 10^{39} cells.

翻译：列联表是多元分类数据的基本表示形式。由于列联表的规模随变量数量呈指数级增长，即使变量数量适中且各变量水平数有限，也会产生海量的单元格；即便数据量充足，其中绝大多数单元格仍将保持空值。本文针对此类场景提出一种高效推断高阶对数线性模型的方法。我们通过仅对空单元格进行抽样，并在泊松抽样方案下推导相应似然函数，以应对计算挑战。这使得我们能够定义一种用于参数估计的迭代重加权最小二乘（IRWLS）算法。在超高维列联表的极端场景下，当抽样空单元格数量超过观测值时，我们证明了基于抽样数据的标准泊松回归如何收敛至该IRWLS方案。我们通过对综合社会调查数据的分析来验证该方法，该数据集包含15014个观测值，构成70维列联表，总单元格数达2.6×10^{39}个。

0

相关内容

列联表

连续表示方法、理论与应用：综述与前瞻

连续表示方法、理论与应用：综述与前瞻

专知会员服务

23+阅读 · 2025年5月28日

【剑桥博士论文】小样本高维数据上的表格机器学习

【剑桥博士论文】小样本高维数据上的表格机器学习

专知会员服务

18+阅读 · 2025年4月9日

表格数据的语言建模：基础、技术与演变综述

表格数据的语言建模：基础、技术与演变综述

专知会员服务

39+阅读 · 2024年8月23日

面向表格数据的大模型推理综述

面向表格数据的大模型推理综述

专知会员服务

67+阅读 · 2023年12月26日

【干货书】面向数据科学的高级线性模型

专知会员服务

54+阅读 · 2021年10月1日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

86+阅读 · 2020年4月23日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

专知会员服务

69+阅读 · 2019年11月30日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知

11+阅读 · 2021年2月19日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

图解高等数学|线性代数

图解高等数学|线性代数

遇见数学

39+阅读 · 2017年10月18日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

对称分类、整体群表示和不变参数化格式研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于广义部分线性单指标模型的高维纵向数据统计分析

国家自然科学基金

1+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

Concurrent Deterministic Skiplist and Other Data Structures

Arxiv

0+阅读 · 3月5日

Advancing Uncertain Combinatorics through Graphization, Hyperization, and Uncertainization: Fuzzy, Neutrosophic, Soft, Rough, and Beyond

Arxiv

0+阅读 · 2月22日

Geometric modelling of spatial extremes

Geometric modelling of spatial extremes

Arxiv

0+阅读 · 2月19日

TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models

Arxiv

0+阅读 · 2月18日

Modelling multivariate ordinal time series using pairwise likelihood

Arxiv

0+阅读 · 2月13日

Complexity of Sequence-to-Graph Alignment with Co-Linear Chaining

Arxiv

0+阅读 · 2月13日

Tensor learning with orthogonal, Lorentz, and symplectic symmetries

Arxiv

0+阅读 · 2月10日

Efficient Table Retrieval and Understanding with Multimodal Large Language Models

Arxiv

0+阅读 · 2月7日

Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

美国军方使用的10种反无人机武器（2026年更新）

美国军方使用的10种反无人机武器（2026年更新）

专知会员服务

3+阅读 · 今天4:07

智能技术在战场指挥控制系统中的应用（附中英文版下载）

智能技术在战场指挥控制系统中的应用（附中英文版下载）

专知会员服务

1+阅读 · 今天3:21

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

4+阅读 · 今天3:03

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

2+阅读 · 今天2:59

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

10+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

3+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

2+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

6+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

3+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

9+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

相关VIP内容

连续表示方法、理论与应用：综述与前瞻

连续表示方法、理论与应用：综述与前瞻

专知会员服务

23+阅读 · 2025年5月28日

【剑桥博士论文】小样本高维数据上的表格机器学习

【剑桥博士论文】小样本高维数据上的表格机器学习

专知会员服务

18+阅读 · 2025年4月9日

表格数据的语言建模：基础、技术与演变综述

表格数据的语言建模：基础、技术与演变综述

专知会员服务

39+阅读 · 2024年8月23日

面向表格数据的大模型推理综述

面向表格数据的大模型推理综述

专知会员服务

67+阅读 · 2023年12月26日

【干货书】面向数据科学的高级线性模型

专知会员服务

54+阅读 · 2021年10月1日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

86+阅读 · 2020年4月23日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

专知会员服务

69+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

智能技术在战场指挥控制系统中的应用（附中英文版下载）

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

美国军方使用的10种反无人机武器（2026年更新）

北约《俄乌战争经验教训课程指南：25份课程计划》150页

相关资讯

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知

11+阅读 · 2021年2月19日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

图解高等数学|线性代数

图解高等数学|线性代数

遇见数学

39+阅读 · 2017年10月18日

相关论文

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

Concurrent Deterministic Skiplist and Other Data Structures

Arxiv

0+阅读 · 3月5日

Advancing Uncertain Combinatorics through Graphization, Hyperization, and Uncertainization: Fuzzy, Neutrosophic, Soft, Rough, and Beyond

Arxiv

0+阅读 · 2月22日

Geometric modelling of spatial extremes

Geometric modelling of spatial extremes

Arxiv

0+阅读 · 2月19日

TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models

Arxiv

0+阅读 · 2月18日

Modelling multivariate ordinal time series using pairwise likelihood

Arxiv

0+阅读 · 2月13日

Complexity of Sequence-to-Graph Alignment with Co-Linear Chaining

Arxiv

0+阅读 · 2月13日

Tensor learning with orthogonal, Lorentz, and symplectic symmetries

Arxiv

0+阅读 · 2月10日

Efficient Table Retrieval and Understanding with Multimodal Large Language Models

Arxiv

0+阅读 · 2月7日

Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models

Arxiv

0+阅读 · 2月2日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

对称分类、整体群表示和不变参数化格式研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于广义部分线性单指标模型的高维纵向数据统计分析

国家自然科学基金

1+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员