Kronos:面向金融市场的基础模型 — 技术深度解析

一种新的语言模型方法如何改变我们对金融时间序列数据的建模、预测与模拟方式。

 

下面的内容讲的可能有点深,直接上图大家看看效果吧,主要功能就是预测行情方向和波动率,特色是全球首款针对K线时间序列的预测模型,清华大学的研究成果

引言:为何基础模型在金融领域至关重要

基础模型——在大规模、多样化数据集上预训练的巨型神经网络——已从根本上改变了自然语言处理和计算机视觉。像 GPT-4、CLIP 和 SAM 这样的工具展示了通用架构的威力,可通过微调提示来完成各种下游任务。

但时间序列——尤其是金融市场数据——对“一模型通吃”的范式一直抗拒不化。大多数时间序列基础模型(TSFM)的进展集中在通用预测任务上,几乎未考虑真实金融数据的独特结构、非平稳性和噪声。更糟糕的是:即便在数十亿数据点上预训练,通用模型在 K 线(烛线)数据上也常常不如手工调优的专用架构。

由清华大学的石宇等人提出的 Kronos,正是为填补这一空白而来。它是第一个大规模、完全面向金融的基础模型,也是对如何将市场微观结构的“语言”用现代机器学习方法表达的深度重构。

通用 AI 为什么难以应对金融时间序列

一般而言,时间序列数据就具有挑战性;但高频金融时间序列还增加了多种复杂性:

  • 信噪比低:市场噪声巨大,价格变动常受微结构效应和随机冲击主导。

  • 非平稳性:统计特性随时间和资产而变。

  • 高阶依赖:开盘价、最高价、最低价、收盘价、成交量和成交额(OHLCVA)以微妙的非线性方式交互。

  • 厚尾与罕见事件:大幅跳跃和波动簇比“正常”数据更常见。

  • 数据伪影:缺失数据、低流动性时段和数据源错误会污染训练集。

在天气、医疗、传感器等多个领域训练的通用 TSFM 很少遇到这些病态,且其训练数据中不足 1% 是金融数据,导致在量化金融需求下的迁移性和泛化性差。

Kronos:专为金融打造的模型

1. 大规模、专用的预训练语料库

Kronos 在45 个全球交易所的逾 120 亿条 K 线记录上预训练,覆盖七种时间粒度,并囊括股票、加密货币、期货与外汇。预训练数据**100%**来自金融领域,确保最大领域对齐。

  • 数据清洗:实施严苛伪影过滤——按结构性中断(如分红/拆股引发的跳涨)分割,剔除低流动/停滞时段,并对不同字段定制填补策略(如成交量零填充、缺失价格分段插值)。

  • 时序归一化:输入做 Z 分数标准化并截断,添加日内/周/月时间嵌入特征。

2. 针对 K 线数据的新型分词器

Kronos 不直接处理原始连续特征,而是通过基于 Transformer 的自编码器和二元球面量化(BSQ)技术,将每根多变量 K 线条离散化成结构化、分层 Token。

  • 粗细子 Token:每个 Token 包含粗粒度细粒度子 Token,通过分层重构损失优化。粗粒度编码大体市场状态,细粒度补充细节。

  • 为何分词?离散化能

    • 提升样本效率(每一 Token 代表大量相似状态)

    • 抑制噪声与离群值(量化误差有界)

    • 使 Transformer(最初为 NLP 架构)能处理金融市场“语言”

  • 词表规模:码本按因子分解以优化计算,可将 20 位 Token 分拆为两段 10 位子 Token,在表现力与推理成本间取平衡。

3. 分层自回归建模

Token 序列由大型解码器 Transformer(类似 GPT,但用于时间序列)建模,采用显式链式规则分解:

  1. 先预测粗粒度子 Token(大致市场方向/状态)

  2. 再在历史与新粗粒度子 Token 条件下预测细粒度子 Token

  3. 自回归概率生成:既可作点预测,也可生成多条采样路径(对模拟、风险与不确定性评估至关重要)

4. 统一框架:预测、模拟与合成数据

Kronos 可开箱即用地执行:

  • 价格预测(下一根或多步预测)

  • 收益与波动率预测

  • 合成 K 线序列生成

  • 投资模拟/回测(信号排序、组合构建)

  • 概率场景生成(推断时 Monte Carlo 多重展开)

技术创新:Kronos 的成功原理

离散化非噱头

核心洞见:对金融时间序列建模离散状态,而非原始数值,有诸多优势:

  • 抑噪:将连续噪声值映射到有限词汇,限制离群冲击影响。

  • 泛化更好:ransformer 学习表现力强的有限市场模式,避免对微结构噪声过拟合。

  • 粗细解码:分层损失确保高频常见模式高效捕捉,罕见重要事件(如价格剧变)在低频 Token 中获得独立表达。

海量、优质、领域对齐的数据

与通用 TSFM 相比,Kronos 覆盖了完整的金融制度、流动性与资产类别多样性。严谨清洗流程保证模型学习真实市场模式,而非伪影或缺失数据。

自回归概率预测

训练模型顺序预测 Token,能生成多条合理未来场景,而非单点估计——对风险管理、压力测试与真实回测至关重要。

成果:新的技术标杆

1. 预测性能

Kronos 在所有核心任务上均超越通用 TSFM 与手工调优基线(如 iTransformer、PatchTST、DLinear,以至于 GARCH 模型):

  • 相较最佳现有 TSFM,RankIC 提升 93%

  • 相较最优非预训练模型,提升 87%

  • 波动率预测 MAE 降低 9%

2. 合成数据生成

在 t-SNE/KDE 与判别评分测试中,Kronos 生成的合成 K 线序列比 GAN、VAE 或扩散模型的结果更接近真实数据,表明其不仅是优秀预测器,也是可信模拟器。

3. 投资模拟

在多种回测(仅多头、等权重前 k 选股组合)中,使用 Kronos 信号的年化超额收益率与信息比率优于所有基线。

4. 消融与敏感性分析

消融研究证实:

  • 离散分层 Token 化优于连续建模(MSE 与 NLL 指标)

  • 顺序子 Token 预测(粗到细)胜过并行或单片 Token 预测

  • 更大词表提升重构与预测效果,直至计算资源瓶颈

5. 可用性

公开发布预训练模型、代码与权重.

更广泛影响与局限

Kronos 的意义

  • 金融专用基础模型解锁新工作流程:统一即插即用架构可加速研究,减少量化技术债。

  • 优质合成数据助力研究:更安全、真实的极端情景测试。

  • 多任务统一建模:从预测到模拟,减少多套手工系统维护。

局限与开放问题

  • 仍需大量计算资源:生产环境或需进一步蒸馏或压缩。

  • 向非 K 线数据迁移:订单簿或另类资产需额外适配。

  • 可解释性:与经典模型相比,深度学习预测透明度有限。

结论

Kronos 是金融领域迈向基础模型的重要里程碑。其领域专用分层 Token 化、基于全球清洗数据的大规模预训练,以及跨多任务的技术领先表现,为下一代金融智能奠定了新的基础。

通用 AI 金融时代已逝,Kronos 时代才刚刚开启。