Text-based sentiment indicators are widely used to monitor public and market mood, but weekly sentiment series are noisy by construction. A main reason is that the amount of relevant news changes over time and across categories. As a result, some weekly averages are based on many articles, while others rely on only a few. Existing approaches do not explicitly account for changes in data availability when measuring uncertainty. We present a Bayesian state-space framework that turns aggregated news sentiment into a smoothed time series with uncertainty. The model treats each weekly sentiment value as a noisy measurement of an underlying sentiment process, with observation uncertainty scaled by the effective information weight $n_{tj}$: when coverage is high, latent sentiment is anchored more strongly to the observed aggregate; when coverage is low, inference relies more on the latent dynamics and uncertainty increases. Using news data grouped into multiple categories, we find broadly similar latent dynamics across categories, while larger differences appear in observation noise. The framework is designed for descriptive monitoring and can be extended to other text sources where information availability varies over time.


翻译:基于文本的情感指标被广泛用于监测公众与市场情绪,但按周构建的情感序列本质上存在噪声。一个主要原因是相关新闻的数量会随时间及类别发生变化。因此,某些周度平均值基于大量文章计算,而另一些则仅依赖少数几篇。现有方法在衡量不确定性时并未明确考虑数据可用性的变化。本文提出一种贝叶斯状态空间框架,可将聚合新闻情感转化为带有不确定性的平滑时间序列。该模型将每周情感值视为潜在情感过程的噪声测量值,其观测不确定性通过有效信息权重 $n_{tj}$ 进行缩放:当新闻覆盖度高时,潜在情感更紧密地锚定于观测聚合值;当覆盖度低时,推断更依赖于潜在动态且不确定性增大。通过对多类别新闻数据的分析,我们发现不同类别间的潜在动态具有广泛相似性,而观测噪声则呈现较大差异。该框架适用于描述性监测任务,并可扩展至其他信息可用性随时间变化的文本数据源。

0
下载
关闭预览

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【WWW2025】释放大型语言模型在去噪推荐中的强大能力
专知会员服务
13+阅读 · 2025年2月18日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
时间序列和时空数据扩散模型综述
专知会员服务
64+阅读 · 2024年5月1日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
教你用Python爬虫股票评论,简单分析股民用户情绪
数据派THU
10+阅读 · 2017年12月12日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员