NotebookRAG：基于多笔记本检索增强的众智EDA笔记本生成方法 (NotebookRAG: Retrieving Multiple Notebooks to Augment the Generation of EDA Notebooks for Crowd-Wisdom) - 专知论文

会员服务 ·

0

笔记本电脑 · EDA · 分析 · 知识 · 自动化 ·

NotebookRAG: Retrieving Multiple Notebooks to Augment the Generation of EDA Notebooks for Crowd-Wisdom

翻译：NotebookRAG：基于多笔记本检索增强的众智EDA笔记本生成方法

Yi Shan,Yixuan He,Zekai Shao,Kai Xu,Siming Chen

from arxiv, 11 pages, 7 figures

High-quality exploratory data analysis (EDA) is essential in the data science pipeline, but remains highly dependent on analysts' expertise and effort. While recent LLM-based approaches partially reduce this burden, they struggle to generate effective analysis plans and appropriate insights and visualizations when user intent is abstract. Meanwhile, a vast collection of analysis notebooks produced across platforms and organizations contains rich analytical knowledge that can potentially guide automated EDA. Retrieval-augmented generation (RAG) provides a natural way to leverage such corpora, but general methods often treat notebooks as static documents and fail to fully exploit their potential knowledge for automating EDA. To address these limitations, we propose NotebookRAG, a method that takes user intent, datasets, and existing notebooks as input to retrieve, enhance, and reuse relevant notebook content for automated EDA generation. For retrieval, we transform code cells into context-enriched executable components, which improve retrieval quality and enable rerun with new data to generate updated visualizations and reliable insights. For generation, an agent leverages enhanced retrieval content to construct effective EDA plans, derive insights, and produce appropriate visualizations. Evidence from a user study with 24 participants confirms the superiority of our method in producing high-quality and intent-aligned EDA notebooks.

翻译：高质量的探索性数据分析（EDA）在数据科学流程中至关重要，但其质量仍高度依赖于分析人员的专业知识和投入。尽管近期基于大语言模型（LLM）的方法部分减轻了这一负担，但当用户意图较为抽象时，这些方法难以生成有效的分析计划、恰当的洞察与可视化。与此同时，跨平台与组织产生的大量分析笔记本蕴含着丰富的分析知识，有望为自动化EDA提供指导。检索增强生成（RAG）为利用此类语料库提供了自然途径，但通用方法通常将笔记本视为静态文档，未能充分挖掘其用于自动化EDA的潜在知识。为应对这些局限，我们提出NotebookRAG方法，该方法以用户意图、数据集及现有笔记本作为输入，通过检索、增强与复用相关笔记本内容来生成自动化EDA。在检索阶段，我们将代码单元转化为上下文增强的可执行组件，从而提升检索质量，并支持在新数据上重新运行以生成更新的可视化结果与可靠洞察。在生成阶段，智能体利用增强的检索内容构建有效的EDA计划、推导洞察并生成恰当的可视化。一项包含24名参与者的用户研究证据证实，本方法在生成高质量且符合意图的EDA笔记本方面具有优越性。

0

相关内容

笔记本电脑

笔记本电脑

是一种小型、可以方便携带的个人电脑.通常拥有液晶显示器（液晶屏），现在新式的有触摸屏。除了键盘以外，有些还装有触控板（touchpad）或触控点作为定位设备。

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

42+阅读 · 2025年4月16日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

37+阅读 · 2025年1月28日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

89+阅读 · 2025年1月21日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

70+阅读 · 2024年10月7日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

56+阅读 · 2024年9月24日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

大模型+EDA？港中文北大华为等最新《AI原生电子设计自动化（EDA）的黎明：大型电路模型的承诺与挑战》

大模型+EDA？港中文北大华为等最新《AI原生电子设计自动化（EDA）的黎明：大型电路模型的承诺与挑战》

专知会员服务

40+阅读 · 2024年3月24日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

11+阅读 · 2019年6月2日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

17+阅读 · 2019年5月4日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

大牛的《深度学习》笔记，Deep Learning速成教程

大牛的《深度学习》笔记，Deep Learning速成教程

极市平台

18+阅读 · 2018年4月10日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

产业智能官

12+阅读 · 2018年4月6日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Arxiv

0+阅读 · 2月11日

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

Arxiv

0+阅读 · 2月9日

MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering

Arxiv

0+阅读 · 2月7日

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Arxiv

0+阅读 · 2月3日

ENGRAM: Effective, Lightweight Memory Orchestration for Conversational Agents

Arxiv

0+阅读 · 2月3日

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications

Arxiv

0+阅读 · 1月30日

Graph-based Approaches and Functionalities in Retrieval-Augmented Generation: A Comprehensive Survey

Arxiv

0+阅读 · 1月21日

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

Arxiv

0+阅读 · 1月13日

Generation-Augmented Generation: A Plug-and-Play Framework for Private Knowledge Injection in Large Language Models

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

笔记本电脑

相关VIP内容

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

42+阅读 · 2025年4月16日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

37+阅读 · 2025年1月28日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

89+阅读 · 2025年1月21日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

70+阅读 · 2024年10月7日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

56+阅读 · 2024年9月24日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

大模型+EDA？港中文北大华为等最新《AI原生电子设计自动化（EDA）的黎明：大型电路模型的承诺与挑战》

大模型+EDA？港中文北大华为等最新《AI原生电子设计自动化（EDA）的黎明：大型电路模型的承诺与挑战》

专知会员服务

40+阅读 · 2024年3月24日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

11+阅读 · 2019年6月2日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

17+阅读 · 2019年5月4日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

大牛的《深度学习》笔记，Deep Learning速成教程

大牛的《深度学习》笔记，Deep Learning速成教程

极市平台

18+阅读 · 2018年4月10日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

产业智能官

12+阅读 · 2018年4月6日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Arxiv

0+阅读 · 2月11日

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

Arxiv

0+阅读 · 2月9日

MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering

Arxiv

0+阅读 · 2月7日

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Arxiv

0+阅读 · 2月3日

ENGRAM: Effective, Lightweight Memory Orchestration for Conversational Agents

Arxiv

0+阅读 · 2月3日

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications

Arxiv

0+阅读 · 1月30日

Graph-based Approaches and Functionalities in Retrieval-Augmented Generation: A Comprehensive Survey

Arxiv

0+阅读 · 1月21日

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

Arxiv

0+阅读 · 1月13日

Generation-Augmented Generation: A Plug-and-Play Framework for Private Knowledge Injection in Large Language Models

Arxiv

0+阅读 · 1月13日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员