談到量化投資,我們經(jīng)常會聽到“模型”這個詞,量化投資中的模型是什么概念?又該如何理解模型訓練中的“過擬合”問題?本期專欄將圍繞相關(guān)專業(yè)話題進行探討。
Q53:何為模型?如何區(qū)分模型與算法?
一般而言,模型(Model)由數(shù)據(jù)及如何使用歷史數(shù)據(jù)對未來數(shù)據(jù)進行預測的過程組成。而算法(Algorithm)指執(zhí)行一種優(yōu)化過程,即在訓練數(shù)據(jù)集上讓模型的誤差最小化。
在機器學習領(lǐng)域,“機器學習算法”經(jīng)常與“機器學習模型”交替使用——前者指的是在數(shù)據(jù)上運行以創(chuàng)建機器學習“模型”的過程,后者著重表達用于進行預測所需的規(guī)則、數(shù)字和任何其他特定于算法的數(shù)據(jù)結(jié)構(gòu)。
在模型開發(fā)/模型預測、模型訓練/預測值合并等環(huán)節(jié)中會將提取到的特征或Alpha因子進一步加工,得到“更優(yōu)Alpha”。早期量化私募的模型開發(fā)以線性模型為主,隨著非線性模型(如機器學習、深度學習模型)占比逐步提升,其模型復雜度、參數(shù)相比傳統(tǒng)統(tǒng)計學習模型有了很大提升,預測效果也更好,量化機構(gòu)整體投資能力獲得較大進步——具體到如何精細化處理樹模型、神經(jīng)網(wǎng)絡(luò)模型等也從側(cè)面體現(xiàn)出各家研究深度和廣度的不同。
Q54:量化投資通用預測模型有哪些?
量化投資的環(huán)節(jié)中所采用的模型大致可以分為三類:因子挖掘模型、預測模型和組合優(yōu)化及交易算法模型。其中預測模型的發(fā)展總體而言是從簡單到復雜、未來還要更復雜的迭代過程。目前,業(yè)內(nèi)比較通用的預測模型包括:
(1)注重可解釋性的線性模型:OLS
(2)統(tǒng)計學習、機器學習模型:Lasso、SVM、GBDT
(3)可端到端的深度學習模型:DNN、LSTM、Transformer、GNN
Q55:什么是過擬合?
過擬合(overfitting)是統(tǒng)計學和機器學習領(lǐng)域的常用概念,可分為訓練過擬合和回測過擬合兩個層次:
一、訓練過擬合是機器學習語境下偏狹義色彩的過擬合,指“機器學習模型在訓練集上表現(xiàn)良好,但在測試集或新數(shù)據(jù)上表現(xiàn)較差”。產(chǎn)生原因是模型超參數(shù)選擇不當或模型過度訓練,解決方案通常是采用合理的交叉驗證方法選擇模型超參數(shù)。
二、回測過擬合是量化研究語境下偏廣義色彩的過擬合,指“量化模型在回測階段表現(xiàn)好,在實盤階段表現(xiàn)差”。產(chǎn)生原因是市場規(guī)律發(fā)生變化,或者對回測階段數(shù)據(jù)噪音的過度學習?;販y過擬合難以根除,相對合理的解決方案是借助量化指標檢驗回測過擬合程度。
Q56:如何預防過擬合?
當模型過于復雜、參數(shù)數(shù)量過多、學習能力太強時,容易出現(xiàn)模型對于訓練集以外的數(shù)據(jù)泛化能力差,表現(xiàn)為過擬合。
由于大多數(shù)機器學習模型并不是專門為金融時間序列開發(fā)的,這些模型在量化建模中的應(yīng)用需要適時調(diào)整。所以將機器學習應(yīng)用到量化投資領(lǐng)域時,在模型訓練中如何預防和避免過擬合顯得尤為重要,需要綜合考慮預測精度、模型可解釋性、模型魯棒性和計算復雜性等因素。其中金融時間序列預測必須避免使用未來信息,有時更傾向于隨著時間的推移將時間序列分成訓練、驗證和測試塊,即進行前向驗證,而非模型超參數(shù)優(yōu)化中的交叉驗證。
在深度學習中,超參數(shù)的選擇對模型的訓練和泛化性能有很大的影響——如果超參數(shù)過大,可能會導致模型過擬合,因此需要根據(jù)數(shù)據(jù)集和模型結(jié)構(gòu)進行調(diào)整。這里的超參數(shù)是指那些需要手動設(shè)置的參數(shù),這些參數(shù)不能直接從數(shù)據(jù)中學習得到,而需要通過持續(xù)調(diào)整和優(yōu)化參數(shù)來得到最優(yōu)的模型。
Q57:還有哪些原因可能導致模型回測與實盤中表現(xiàn)不一致?
模型在回測與實盤中表現(xiàn)不一致是投資領(lǐng)域中普遍存在的現(xiàn)象,并不都是過擬合導致的,還可能與以下因素有關(guān):
(1)數(shù)據(jù)偏差:回測時使用的歷史數(shù)據(jù)可能與實際市場環(huán)境存在一定差異;
(2)滑點和交易成本:實際交易中存在的滑點和交易成本都應(yīng)在回測時進行預估;
(3)策略實現(xiàn)限制:在實盤交易中,策略實現(xiàn)效果可能會受交易執(zhí)行速度、交易執(zhí)行規(guī)模等因素的影響;
(4)市場已發(fā)生變化:由于金融市場由不同參與者組成,投資者結(jié)構(gòu)及投資者行為均會發(fā)生變化。金融市場還受整體宏觀環(huán)境、政治和經(jīng)濟等因素情況影響。所以不同階段市場運行規(guī)律會發(fā)生一定的變化,基于過去總結(jié)的有效規(guī)律在未來也未必有效。
(CIS)
校對:姚遠