一般而言,量化投資可粗略分為六個環(huán)節(jié):收集數(shù)據(jù)、數(shù)據(jù)清洗、特征提取、模型開發(fā)、組合優(yōu)化、交易執(zhí)行。數(shù)據(jù)收集和處理是量化投資中必不可少的環(huán)節(jié),理解金融數(shù)據(jù)的復雜性及數(shù)據(jù)處理的重要性,對認識量化投資具有重要意義。
Q45:如何理解金融數(shù)據(jù)的復雜性,它有哪些主要特點?
(一)低信噪比
金融數(shù)據(jù)中噪音比例高,提取有效信號的難度較大,模型如果調(diào)整不夠得當,就容易學習“噪音”。由于這一特性,量化投資在模型開發(fā)和調(diào)校時尤其強調(diào)避免過擬合,處理金融數(shù)據(jù)時格外注重邏輯。以A股為例,不同股票具有不同漲跌停規(guī)則,此外新股上市以及復牌等行為都需要特殊處理,故而需要在邏輯的基礎上對信息進行合理的挖掘、過濾、組合。
(二)時序單調(diào)性
證券交易數(shù)據(jù)等時間序列有時序性(時間不可倒流),且金融市場時刻存在博弈,規(guī)律具有時變特性。量化投資方法論的目的是用歷史數(shù)據(jù)預測未來,所以一定要避免未來信息的引入,并合理評估歷史回測。
Q46:金融數(shù)據(jù)可以如何分類?
(一)按照數(shù)據(jù)格式分:
(1)標準化數(shù)據(jù)
常見的是截面、時間序列等數(shù)值類型數(shù)據(jù),如交易所原始數(shù)據(jù)、原始行情及各類衍生出的價格、交易量、K線圖等。普通投資者在炒股軟件上看的分時圖、K線圖等數(shù)據(jù)也都衍生于交易所的原始數(shù)據(jù),這些較為干凈的數(shù)據(jù)被稱為“標準化數(shù)據(jù)”。
(2)非標準化數(shù)據(jù)
以文本數(shù)據(jù)為主,包括財經(jīng)新聞、財經(jīng)論壇問答、賣方分析師投資報告、第三方機構提供的特殊數(shù)據(jù)等。這些數(shù)據(jù)里低相關非重大信息占比高,相比標準化數(shù)據(jù)會更復雜一些,所以被稱為“非標準化數(shù)據(jù)”。為應用于量化策略開發(fā),必須先對其進行數(shù)據(jù)清洗等結構化處理。
(二)按照數(shù)據(jù)來源分:
(1)價量數(shù)據(jù)
價量數(shù)據(jù)包括一切能從市場交易行為中提取的信息,不局限于股票及其他資產(chǎn)的價格,以及衍生的各項技術類指標。包括日間量價數(shù)據(jù)(日K)、日內(nèi)量價數(shù)據(jù)(分時數(shù)據(jù))、逐筆數(shù)據(jù)(股票的每筆成交和掛單數(shù)據(jù))。其中日內(nèi)量價數(shù)據(jù)的體量是日間量價數(shù)據(jù)的幾百到幾千倍,逐筆數(shù)據(jù)的體量可以是日間量價數(shù)據(jù)的萬倍以上。
(2)基本面數(shù)據(jù)
既包括宏觀基本面、產(chǎn)業(yè)鏈上下游發(fā)展、行業(yè)發(fā)展趨勢等,也包括上市公司的財務報表如資產(chǎn)負債表、利潤表、現(xiàn)金流量表等。主觀投資在獲取及處理基本面數(shù)據(jù)上擁有明顯的相對優(yōu)勢,通過深度調(diào)研還可獲取非公開非結構化信息。
(3)事件驅動數(shù)據(jù)
通過預測市場對特定事件的反應不足或過度反應,判斷股票價格變化以獲取超額回報。在金融領域,“事件”通常指“可能在短期導致投資者預期發(fā)生變化、對公司的基本面或其股票價格產(chǎn)生重大影響的情況”,比如股票回購和股東增持等。
(4)另類數(shù)據(jù)
另類數(shù)據(jù)是個相對的概念——當某種另類數(shù)據(jù)逐漸被市場上大部分參與者所接納和使用時,就不再“另類”。目前來看,另類數(shù)據(jù)包括所有投資研究中使用的非傳統(tǒng)來源的新型數(shù)據(jù),如ESG數(shù)據(jù)、社交媒體評論、衛(wèi)星圖像、移動設備數(shù)據(jù)、應用程序使用情況、互聯(lián)網(wǎng)搜索記錄和消費者交易數(shù)據(jù)等。
一般而言,數(shù)據(jù)點及結構化數(shù)據(jù)越多,越有利于量化投資進行建模。目前國內(nèi)主流量化私募的模型中價量因子占比較高,同時持續(xù)對基本面因子深入研究。隨著量化行業(yè)的持續(xù)發(fā)展,未來各類因子都會提供非常重要的貢獻。
Q47:國內(nèi)對另類數(shù)據(jù)的研究和運用情況如何?
另類數(shù)據(jù)研究在海外已擁有較為成熟的應用。另類投資管理協(xié)會(AIMA)與金融科技公司SS&C合作發(fā)布的報告顯示,目前全球活躍的另類數(shù)據(jù)供應商超過400家,而1990年時只有20家。根據(jù)AIMA與美國銀行的聯(lián)合調(diào)查,目前約有一半的資管機構已在使用另類數(shù)據(jù),且這一數(shù)量還在不斷增長。
但在國內(nèi),由于金融市場發(fā)展階段的差異性,具體表現(xiàn)為獲取難度偏大(高價值數(shù)據(jù)獲取難、易獲取數(shù)據(jù)質(zhì)量低)、成本相對較高,非結構化數(shù)據(jù)的處理技術還不夠成熟等原因,目前另類數(shù)據(jù)領域仍屬藍海。除了與多家數(shù)據(jù)第三方保持聯(lián)動外,不少主流私募也在以較快的速度不斷搜集、積累和持續(xù)探索另類數(shù)據(jù),以尋找多元化、差異化的Alpha來源。
Q48:數(shù)據(jù)清洗和處理的一般步驟有哪些?
數(shù)據(jù)數(shù)量和質(zhì)量將直接影響最終投資組合表現(xiàn),其中數(shù)據(jù)的數(shù)量則是制約機器學習模型訓練和預測準確度的關鍵因素。數(shù)據(jù)清洗和預處理的步驟一般包括:缺失值處理、 重復值處理、數(shù)據(jù)去極值、 數(shù)據(jù)中性化(指消除數(shù)據(jù)中的某些因素對投資策略的影響,從而使策略更具普適性和可靠性。常見的中性化包括市值中性化、行業(yè)中性化、風格中性化等)、 數(shù)據(jù)標準化(如日期可能需要被轉換為特定的格式)等。
(CIS)
校對:劉榕枝