We present the knowledge manifold: a Riemannian geometric space in which a corpus of documents is arranged according to semantic positional relationships derived from character n-gram TF-IDF representations. The framework proceeds in five tightly coupled stages. First, each document is converted to a character-level n-gram TF-IDF vector (4-7 grams, up to 250,000 features, L2-normalized) and embedded in a two-dimensional knowledge map via constrained stress minimization with repulsion, variance, and centering regularizers. Second, knowledge at an arbitrary query point is estimated through Smoothed Particle Hydrodynamics (SPH) interpolation using a cubic-spline kernel, yielding an interpolated TF-IDF feature vector that can be linguistically characterized. Third, directional knowledge gradients at 0, 45, and 90 degrees are computed from the SPH interpolation map, and pairwise directional similarity is quantified via inner product and cosine similarity. Fourth, a Gaussian Process Regression (GPR) model, with a Constant x RBF + White kernel fitted on a 10-dimensional SVD projection, provides a Bayesian posterior mean, uncertainty estimate, and per-document contribution rate at the query point. Fifth, geodesics in the knowledge space are obtained by minimizing a discrete Riemannian path energy derived from the SPH-induced metric tensor, using L-BFGS-B with seven deterministic initial-path candidates. We apply the formulation to a corpus of 20 papers in fiber-reinforced composite materials and aerospace structural mechanics, showing that the semantic map recovers meaningful research clusters, geodesic paths reveal natural conceptual bridges between distant topics, and SPH/GPR interpolation enables the generation of virtual knowledge: hypothetical paper abstracts describing unstudied but geometrically predicted research directions.


翻译:我们提出了知识流形这一概念:一个黎曼几何空间,其中文档语料库根据基于字符n-gram TF-IDF表示推导出的语义位置关系进行排列。该框架包含五个紧密耦合的阶段。首先,每篇文档被转换为字符级n-gram TF-IDF向量(4-7元语法,最多250,000个特征,L2归一化),并通过带有排斥、方差和中心化正则化项的约束应力最小化嵌入到二维知识地图中。其次,通过使用三次样条核的平滑粒子流体动力学(SPH)插值估计任意查询点处的知识,生成可进行语言表征的插值TF-IDF特征向量。第三,从SPH插值图中计算0度、45度和90度方向的知识梯度,并通过内积和余弦相似度量化成对方向相似性。第四,采用常数×RBF+白噪声核的高斯过程回归(GPR)模型,在10维SVD投影上拟合,提供查询点的贝叶斯后验均值、不确定性估计及每篇文档的贡献率。第五,通过使用L-BFGS-B优化算法结合七条确定性初始路径候选,最小化由SPH诱导度量张量导出的离散黎曼路径能量,得到知识空间中的测地线。我们将该公式应用于包含20篇纤维增强复合材料与航空航天结构力学领域论文的语料库,结果表明语义地图能够还原有意义的研究聚类,测地线路径揭示了不同主题间的自然概念桥梁,而SPH/GPR插值则实现了虚拟知识的生成:即描述未被研究但几何预测的研究方向的假设性论文摘要。

0
下载
关闭预览

相关内容

通过学习、实践或探索所获得的认识、判断或技能。
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
相关资讯
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员