Structured information extraction from police incident announcements is crucial for timely and accurate data processing, yet presents considerable challenges due to the variability and informal nature of textual sources such as social media posts. To address these challenges, we developed a domain-adapted extraction pipeline that leverages targeted prompt engineering with parameter-efficient fine-tuning of the Qwen2.5-7B model using Low-Rank Adaptation (LoRA). This approach enables the model to handle noisy, heterogeneous text while reliably extracting 15 key fields, including location, event characteristics, and impact assessment, from a high-quality, manually annotated dataset of 4,933 instances derived from 27,822 police briefing posts on Chinese Weibo (2019-2020). Experimental results demonstrated that LoRA-based fine-tuning significantly improved performance over both the base and instruction-tuned models, achieving an accuracy exceeding 98.36% for mortality detection and Exact Match Rates of 95.31% for fatality counts and 95.54% for province-level location extraction. The proposed pipeline thus provides a validated and efficient solution for multi-task structured information extraction in specialized domains, offering a practical framework for transforming unstructured text into reliable structured data in social science research.


翻译:从警情通报中抽取结构化信息对于及时准确的数据处理至关重要,但由于社交媒体帖子等文本来源的多样性和非正式性,这项工作面临着巨大挑战。为应对这些挑战,我们开发了一个领域自适应的抽取流程,该流程结合了针对性的提示工程,并利用低秩自适应(LoRA)对Qwen2.5-7B模型进行了参数高效的微调。该方法使模型能够处理噪声大、异构的文本,同时从一个高质量、人工标注的数据集(包含4,933个实例,源自2019-2020年间中国微博平台上的27,822条警情通报帖子)中可靠地抽取15个关键字段,包括地点、事件特征和影响评估。实验结果表明,基于LoRA的微调显著提升了模型性能,优于基础模型和指令微调模型,在死亡人数检测任务上准确率超过98.36%,在死亡人数精确匹配和省级地点抽取任务上的精确匹配率分别达到95.31%和95.54%。因此,所提出的流程为专业领域的多任务结构化信息抽取提供了一个经过验证的高效解决方案,为社会科学研究中将非结构化文本转化为可靠的结构化数据提供了一个实用框架。

0
下载
关闭预览

相关内容

【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
1+阅读 · 今天13:45
【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
0+阅读 · 今天13:52
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 今天13:41
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 今天12:47
战争机器学习:数据生态系统构建(155页)
专知会员服务
6+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员