Reducing a Set of Regular Expressions and Analyzing Differences of Domain-specific Statistic Reporting - 专知论文

会员服务 ·

0

正则表达式 · HCI · 提取 · 统计信息 · 分析 ·

2023 年 3 月 25 日

Reducing a Set of Regular Expressions and Analyzing Differences of Domain-specific Statistic Reporting

翻译：正则表达式集合缩减与特定领域统计报告差异分析

Tobias Kalmbach,Marcel Hoffmann,Nicolas Lell,Ansgar Scherp

Due to the large amount of daily scientific publications, it is impossible to manually review each one. Therefore, an automatic extraction of key information is desirable. In this paper, we examine STEREO, a tool for extracting statistics from scientific papers using regular expressions. By adapting an existing regular expression inclusion algorithm for our use case, we decrease the number of regular expressions used in STEREO by about $33.8\%$. We reveal common patterns from the condensed rule set that can be used for the creation of new rules. We also apply STEREO, which was previously trained in the life-sciences and medical domain, to a new scientific domain, namely Human-Computer-Interaction (HCI), and re-evaluate it. According to our research, statistics in the HCI domain are similar to those in the medical domain, although a higher percentage of APA-conform statistics were found in the HCI domain. Additionally, we compare extraction on PDF and LaTeX source files, finding LaTeX to be more reliable for extraction.

翻译：鉴于每日大量的科学出版物，人工逐一审阅已不可行。因此，自动提取关键信息成为迫切需求。本文研究了STEREO——一种利用正则表达式从科学论文中提取统计数据的工具。通过调整现有的正则表达式包含算法以适应我们的用例，我们将STEREO中使用的正则表达式数量减少了约33.8%。我们从精简后的规则集中发现了可用于创建新规则的通用模式。此外，我们将此前在生命科学与医学领域训练的STEREO应用于新的科学领域——人机交互（HCI），并重新评估其性能。研究表明，HCI领域的统计数据与医学领域相似，但HCI领域中发现更高比例的APA格式合规统计数据。同时，我们比较了从PDF和LaTeX源文件中提取的效果，发现LaTeX提取结果更为可靠。

0

相关内容

正则表达式

正则表达式

正则表达式（Regular Expression，一般简写为RegEx或者RegExp），也译为正规表示法、常规表示法，台湾译「规则运算式」，在计算机科学中，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

专知会员服务

62+阅读 · 2023年3月28日

【2023新书】使用Python进行统计和数据可视化，554页pdf

【2023新书】使用Python进行统计和数据可视化，554页pdf

专知会员服务

130+阅读 · 2023年1月29日

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

专知会员服务

49+阅读 · 2022年11月13日

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

专知会员服务

35+阅读 · 2022年3月5日

【干货书】数据科学家统计实战，附代码与409页pdf

【干货书】数据科学家统计实战，附代码与409页pdf

专知会员服务

61+阅读 · 2020年11月6日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

109+阅读 · 2020年5月1日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

164+阅读 · 2019年10月12日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

组蛋白甲基化与癌基因组突变相关性研究

国家自然科学基金

0+阅读 · 2015年12月31日

气温变化的时间非对称性与不可逆性研究

国家自然科学基金

0+阅读 · 2014年12月31日

小鼠多潜能干细胞染色质三维空间构象调控干性基因表达的分子机制

国家自然科学基金

1+阅读 · 2014年12月31日

云的可降水概率遥感分析及在气象干旱中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

肝细胞膜上OATP和MRP载体与肝功能评价的相关性MRI实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

衰老相关的LOX-1基因表达下调与心肌纤维化

国家自然科学基金

0+阅读 · 2012年12月31日

野生大豆耐盐碱关键基因克隆与功能分析

国家自然科学基金

0+阅读 · 2011年12月31日

孕烷X受体介导的CYP3A4基因转录调控的表观遗传分子机制的研究

国家自然科学基金

0+阅读 · 2011年12月31日

黄孢原毛平革菌寡肽转运蛋白基因家族研究

国家自然科学基金

0+阅读 · 2008年12月31日

新疆维吾尔族恶性淋巴瘤TNF基因表达及多态性的研究

国家自然科学基金

0+阅读 · 2008年12月31日

Optimizing Energy Efficiency in Metro Systems Under Uncertainty Disturbances Using Reinforcement Learning

Arxiv

0+阅读 · 2023年5月17日

How to estimate Fisher matrices from simulations

Arxiv

0+阅读 · 2023年5月15日

A Review of Uncertainty Estimation and its Application in Medical Imaging

Arxiv

0+阅读 · 2023年5月15日

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset

Arxiv

0+阅读 · 2023年5月15日

Optimal harvesting policy for biological resources with uncertain heterogeneity for application in fisheries management

Arxiv

0+阅读 · 2023年5月15日

Binary and Re-search Signal Region Detection in High Dimensions

Arxiv

0+阅读 · 2023年5月14日

Color Deconvolution applied to Domain Adaptation in HER2 histopathological images

Arxiv

0+阅读 · 2023年5月12日

Improving the Quality of Neural Machine Translation Through Proper Translation of Name Entities

Arxiv

0+阅读 · 2023年5月12日

Linear Codes with Prescribed Hull Dimension and Minimum Distance

Arxiv

0+阅读 · 2023年5月11日

Under-Approximate Reachability Analysis for a Class of Linear Systems with Inputs

Arxiv

0+阅读 · 2023年5月11日

VIP会员

文章信息

相关主题

正则表达式

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

专知会员服务

62+阅读 · 2023年3月28日

【2023新书】使用Python进行统计和数据可视化，554页pdf

【2023新书】使用Python进行统计和数据可视化，554页pdf

专知会员服务

130+阅读 · 2023年1月29日

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

专知会员服务

49+阅读 · 2022年11月13日

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

专知会员服务

35+阅读 · 2022年3月5日

【干货书】数据科学家统计实战，附代码与409页pdf

【干货书】数据科学家统计实战，附代码与409页pdf

专知会员服务

61+阅读 · 2020年11月6日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

109+阅读 · 2020年5月1日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

164+阅读 · 2019年10月12日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

相关论文

Optimizing Energy Efficiency in Metro Systems Under Uncertainty Disturbances Using Reinforcement Learning

Arxiv

0+阅读 · 2023年5月17日

How to estimate Fisher matrices from simulations

Arxiv

0+阅读 · 2023年5月15日

A Review of Uncertainty Estimation and its Application in Medical Imaging

Arxiv

0+阅读 · 2023年5月15日

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset

Arxiv

0+阅读 · 2023年5月15日

Optimal harvesting policy for biological resources with uncertain heterogeneity for application in fisheries management

Arxiv

0+阅读 · 2023年5月15日

Binary and Re-search Signal Region Detection in High Dimensions

Arxiv

0+阅读 · 2023年5月14日

Color Deconvolution applied to Domain Adaptation in HER2 histopathological images

Arxiv

0+阅读 · 2023年5月12日

Improving the Quality of Neural Machine Translation Through Proper Translation of Name Entities

Arxiv

0+阅读 · 2023年5月12日

Linear Codes with Prescribed Hull Dimension and Minimum Distance

Arxiv

0+阅读 · 2023年5月11日

Under-Approximate Reachability Analysis for a Class of Linear Systems with Inputs

Arxiv

0+阅读 · 2023年5月11日

相关基金

组蛋白甲基化与癌基因组突变相关性研究

国家自然科学基金

0+阅读 · 2015年12月31日

气温变化的时间非对称性与不可逆性研究

国家自然科学基金

0+阅读 · 2014年12月31日

小鼠多潜能干细胞染色质三维空间构象调控干性基因表达的分子机制

国家自然科学基金

1+阅读 · 2014年12月31日

云的可降水概率遥感分析及在气象干旱中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

肝细胞膜上OATP和MRP载体与肝功能评价的相关性MRI实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

衰老相关的LOX-1基因表达下调与心肌纤维化

国家自然科学基金

0+阅读 · 2012年12月31日

野生大豆耐盐碱关键基因克隆与功能分析

国家自然科学基金

0+阅读 · 2011年12月31日

孕烷X受体介导的CYP3A4基因转录调控的表观遗传分子机制的研究

国家自然科学基金

0+阅读 · 2011年12月31日

黄孢原毛平革菌寡肽转运蛋白基因家族研究

国家自然科学基金

0+阅读 · 2008年12月31日

新疆维吾尔族恶性淋巴瘤TNF基因表达及多态性的研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员