特征提取是量化投資中又一環(huán)節(jié),做好特征提取能節(jié)省大量后續(xù)環(huán)節(jié)的工作。什么是特征?特征提取有著哪些全新發(fā)展趨勢(shì)?本期欄目將圍繞這些問題展開。
Q49:什么是特征?
在機(jī)器學(xué)習(xí)領(lǐng)域,特征指“被觀測(cè)對(duì)象的可測(cè)量性能或特性”,通常是數(shù)值型的,但語(yǔ)法模式識(shí)別可以使用結(jié)構(gòu)特征(如字符串和圖)。
Q50:特征和因子的區(qū)別是什么?
因子指“對(duì)個(gè)股收益差異有解釋作用的特征”,其中Alpha因子更為強(qiáng)調(diào)其對(duì)未來個(gè)股相對(duì)收益的預(yù)測(cè)能力?!疤卣鳌备鼈?cè)重符合數(shù)理統(tǒng)計(jì)規(guī)律的信息,“因子”相對(duì)更側(cè)重邏輯性和可解釋性。一般來講,中低頻數(shù)據(jù)能直接提取Alpha因子,不少低頻指標(biāo)本身就具有選股能力;而原始的高頻行情數(shù)據(jù)一般不能直接用作Alpha因子,需要通過信號(hào)變換、時(shí)間序列分析、機(jī)器學(xué)習(xí)等方法從高頻數(shù)據(jù)中構(gòu)建特征,才能構(gòu)建選股因子。
Q51:特征提取的作用和發(fā)展趨勢(shì)有哪些?
一般而言,量化投資可粗略分為六大環(huán)節(jié):收集數(shù)據(jù)、數(shù)據(jù)清洗、特征提取、模型開發(fā)、組合優(yōu)化、交易執(zhí)行。其中“特征提取”環(huán)節(jié),各家稱呼并不相同,簡(jiǎn)單的Alpha因子和簡(jiǎn)單的特征工程處理都在這一環(huán)節(jié)進(jìn)行。
在機(jī)器學(xué)習(xí)領(lǐng)域,“特征工程處理”是指在給定數(shù)據(jù)、模型和任務(wù)的情況下設(shè)計(jì)出最合適特征的過程,相當(dāng)于梳理數(shù)據(jù)并結(jié)合業(yè)務(wù)需要提取有意義的信息,以干凈整齊的形態(tài)進(jìn)行組織。
做好特征提取能節(jié)省大量后續(xù)環(huán)節(jié)的工作:以D. E. Shaw為代表的部分海外頂級(jí)機(jī)構(gòu),并未特別強(qiáng)調(diào)深度學(xué)習(xí)模型的復(fù)雜性,但由于Alpha因子質(zhì)量較高,即使并不復(fù)雜的模型也能獲得出色的建模效果。這也是為何業(yè)內(nèi)并不會(huì)片面強(qiáng)調(diào)因子數(shù)量,而因子的質(zhì)量(即存在多少獨(dú)立的Alpha)才是關(guān)鍵。不同的方法論會(huì)得到不同的成果,從邏輯出發(fā)的因子質(zhì)量比較高,暴力方式得到的因子數(shù)量比較多。
近年來,A股市場(chǎng)更為有效、機(jī)構(gòu)化趨勢(shì)明顯,量化私募從市場(chǎng)獲取超額收益的難度增加,因子開發(fā)也面臨著數(shù)據(jù)維度更高、信息密度更低、噪聲含量更高的挑戰(zhàn)。機(jī)器學(xué)習(xí)等擅長(zhǎng)處理海量數(shù)據(jù)和高維特征的方法得以快速應(yīng)用到量化投研流程中。其中深度學(xué)習(xí)模型具有靈活多樣的網(wǎng)絡(luò)結(jié)構(gòu),適合不同情景的建模問題,本身具有自動(dòng)學(xué)習(xí)特征的能力。隨著網(wǎng)絡(luò)層數(shù)增加,模型的線性和非線性表達(dá)能力也會(huì)在一定范圍內(nèi)明顯增強(qiáng)。
隨著人工神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展,除了選擇分析已經(jīng)提取好特征的信號(hào),還可以直接分析原始數(shù)據(jù)而不需要提取特征。該做法能避免人為選擇導(dǎo)致的信息丟失,保留全部信息,最終有助于獲得相關(guān)性極低的α。
Q52:量化機(jī)構(gòu)的迭代方向有哪些?
第一類:追求更新的方法論
例如在特征工程方面,增進(jìn)對(duì)數(shù)據(jù)的深刻理解,“把對(duì)市場(chǎng)的深刻理解和最先進(jìn)的科學(xué)技術(shù)相結(jié)合”。簡(jiǎn)單的因子提取和連接并不能增加收益,不同維度的多元化拓展是未來努力的方向——雖然目前另類數(shù)據(jù)在中國(guó)A股的應(yīng)用并不廣泛,也未能大幅增加策略的超額收益,但發(fā)展前景廣闊,仍值得持續(xù)積累并投入研究。與自然語(yǔ)言學(xué)習(xí)不同,股票市場(chǎng)本身的數(shù)據(jù)點(diǎn)不夠多,只堆砌數(shù)據(jù)必定導(dǎo)致過擬合。優(yōu)秀的研究員從理解出發(fā),依靠邏輯型的因子(如事件驅(qū)動(dòng)因子)也能進(jìn)行數(shù)據(jù)分析,發(fā)掘他人想不到的東西。
第二類:側(cè)重更新的模型、更高的算力——依靠模擬和近似人的行為試圖替代人的理解
2017 年,Google 的研究者提出 Transformer 的神經(jīng)網(wǎng)絡(luò)模型,這啟發(fā)了全球量化機(jī)構(gòu)在投研中加強(qiáng)新科技的應(yīng)用。如果應(yīng)用更新的模型,Alpha挖掘能力可能比以前提升幅度更大。以深度學(xué)習(xí)為代表的“暴力”方式非常重要,在諸如神經(jīng)網(wǎng)絡(luò)做幾層、怎樣做才不會(huì)過擬合的細(xì)節(jié)問題上即是不同機(jī)構(gòu)的分野,這也是“采用同一個(gè)模型,業(yè)績(jī)卻千變?nèi)f化”的原因。
除了對(duì)基礎(chǔ)設(shè)施等硬件進(jìn)行資金投入外,量化私募還需要努力營(yíng)造有利于高效產(chǎn)出的投研環(huán)境,為優(yōu)秀頂尖人才提供相對(duì)較優(yōu)的福利待遇,兼顧硬實(shí)力的提升和軟環(huán)境的升級(jí)。
(CIS)
校對(duì):姚遠(yuǎn)