Personality detection aims to measure an individual's corresponding personality traits through their social media posts. The advancements in Large Language Models (LLMs) offer novel perspectives for personality detection tasks. Existing approaches enhance personality trait analysis by leveraging LLMs to extract semantic information from textual posts as prompts, followed by training classifiers for categorization. However, accurately classifying personality traits remains challenging due to the inherent complexity of human personality and subtle inter-trait distinctions. Moreover, prompt-based methods often exhibit excessive dependency on expert-crafted knowledge without autonomous pattern-learning capacity. To address these limitations, we view personality detection as a ranking task rather than a classification and propose a corresponding reinforcement learning training paradigm. First, we employ supervised fine-tuning (SFT) to establish personality trait ranking capabilities while enforcing standardized output formats, creating a robust initialization. Subsequently, we introduce Group Relative Policy Optimization (GRPO) with a specialized ranking-based reward function. Unlike verification tasks with definitive solutions, personality assessment involves subjective interpretations and blurred boundaries between trait categories. Our reward function explicitly addresses this challenge by training LLMs to learn optimal answer rankings. Comprehensive experiments have demonstrated that our method achieves state-of-the-art performance across multiple personality detection benchmarks.


翻译:人格检测旨在通过个体社交媒体帖子测量其对应的人格特质。大型语言模型(LLM)的发展为人格检测任务提供了新的视角。现有方法通过利用LLM从文本帖子中提取语义信息作为提示,随后训练分类器进行归类,以增强人格特质分析。然而,由于人格固有的复杂性及特质间微妙的差异,准确分类人格特质仍具挑战性。此外,基于提示的方法常过度依赖专家构建的知识,缺乏自主模式学习能力。为应对这些局限,我们将人格检测视为排序任务而非分类任务,并提出相应的强化学习训练范式。首先,我们采用监督微调(SFT)建立人格特质排序能力,同时强制标准化输出格式,以创建稳健的初始化模型。随后,我们引入基于群组相对策略优化(GRPO)的专用排序奖励函数。与具有确定解的验证任务不同,人格评估涉及主观解释及特质类别间的模糊边界。我们的奖励函数通过训练LLM学习最优答案排序,明确应对这一挑战。综合实验表明,我们的方法在多项人格检测基准测试中实现了最先进的性能。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
万字长文: 检索增强 LLM
专知会员服务
111+阅读 · 2023年9月17日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
万字长文: 检索增强 LLM
专知会员服务
111+阅读 · 2023年9月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员