Appearance
股票数据分析-除权数据前复权和后复权处理【加推篇】
加推篇!除权数据前复权和后复权处理
前言
在行情软件中经常会看到除权、复权选项,我们选择不同的选项,软件上股票的价格回相应地转换。
在量化交易中,我们开发了一个交易策略,需要对策略在历史行情数据上进行回测,那么我们该选择除权,还是复权,哪一种形式的行情数据呢?
本小节我们一起来了解下除权和复权的区别,以及在量化交易中该如何去转换。
什么是除权和复权
除权通常是除权除息的简称,除权除息前后的股价是需要等价换算的,换算是根据“除权前后流通股股东价值不变”原理来确定的。因此除息要去除股价分红的影响。除权要去除股票数量增加的影响。
假如一只股票除息前股价5元,通告今天是股权登记日,当日每10股分红5元。那么明天为除息日,除息后的股价变为4.5元。
假如一只股票除权前股价20元,通告今天是股权登记日,公司决定每10股送10股。那么明天为除权日,股价变为10块,股本增加1倍,原来持有100股在除权日就变为200股。
这两种情况会在走势图上出现不同程度的下跌缺口,我们称为除权缺口。 除权除息会使投资者误认为是一个向下跳空缺口,如下所示:
如果根据除权的股价去计算股票涨跌幅显然是不对的,同花顺软件里面显示的是-52.49%。同样计算得到的各类指标也是毫无参考价值的。
为了使得走势图能真实反映各股价趋势,让投资者更好做出判断,除权除息后的价格就不能直接和以前的价格比,而是要经过复权处理后才有可比性。
除权数据的复权
复权处理也是根据“除权前后流通股股东价值不变”原理。保持现有股价不变,调整以前的价格,就叫做前复权。
同样,保持以前的股价不变,调整除权后的股价,就叫做后复权。
拿刚才的例子来说。2016年6月27日新希望收盘价为17.64元,第二天6月28日每十股转增10股,红利5.5元,那么股票除权之后的收盘价应该是 (17.64 – 0.55) * 10 / (10 + 10) = 8.55元
,6月28日的收盘价是8.38,真实涨跌幅应该是8.38 /8.55 \- 1 = \-1.99%
,而不是软件上显示的8.38/ 17.64 \- 1 = \-52.49%
。
-1.99%也被称为是复权涨跌幅。这个数据是非常关键的,因为无论前复权还是后复权数据,都是可以通过复权涨跌幅转换得到的。
比如得到了股票第一天的价格之后,通过简单的连乘计算,自然就可以计算出之后每一天的复权价,这个叫做后复权价。
同样的,知道了股票最后一天的价格,那么反向处理也就可以计算出之前每一天的价格,这个叫做前复权价。行情软件中的前后复权价格,其实也是这么算出来的。 接下来我们就来计算下前复权和后复权数据。
首先我们分别用接口获取“新希望”除权、前复权、后复权的行情数据,如下所示:
# "除权"
"""
High Low Open Close Volume
Date
2010-01-04 14.38 13.94 13.94 14.17 216924.78
2010-01-05 14.28 13.85 14.22 14.18 107631.41
2010-01-06 14.31 13.87 14.15 13.88 89684.00
2010-01-07 13.97 13.38 13.80 13.48 85856.01
2010-01-08 13.64 13.35 13.43 13.62 58864.09
... ... ... ... ... ...
2019-12-25 18.79 18.44 18.59 18.60 207776.34
2019-12-26 18.76 18.46 18.69 18.60 189935.42
2019-12-27 19.43 18.58 18.74 19.28 504214.70
2019-12-30 19.50 18.92 19.24 19.38 379296.95
2019-12-31 20.31 19.55 19.55 19.95 562873.40
[2244 rows x 5 columns]
"""
# "后复权"
"""
High Low Open Close Volume
Date
2010-01-04 75.15 72.85 72.85 74.05 216924.78
2010-01-05 74.63 72.38 74.32 74.11 107631.41
2010-01-06 74.79 72.49 73.95 72.54 89684.00
2010-01-07 73.01 69.93 72.12 70.45 85856.01
2010-01-08 71.28 69.77 70.19 71.18 58864.09
... ... ... ... ... ...
2019-12-25 261.18 256.31 258.40 258.54 207776.34
2019-12-26 260.76 256.59 259.79 258.54 189935.42
2019-12-27 270.07 258.26 260.48 267.99 504214.70
2019-12-30 271.05 262.99 267.43 269.38 379296.95
2019-12-31 282.31 271.74 271.74 277.30 562873.40
"""
# "前复权"
"""
High Low Open Close Volume
Date
2010-01-04 5.41 5.24 5.24 5.33 216924.78
2010-01-05 5.37 5.21 5.35 5.33 107631.41
2010-01-06 5.38 5.21 5.32 5.22 89684.00
2010-01-07 5.25 5.03 5.19 5.07 85856.01
2010-01-08 5.13 5.02 5.05 5.12 58864.09
... ... ... ... ... ...
2019-12-25 18.79 18.44 18.59 18.60 207776.34
2019-12-26 18.76 18.46 18.69 18.60 189935.42
2019-12-27 19.43 18.58 18.74 19.28 504214.70
2019-12-30 19.50 18.92 19.24 19.38 379296.95
2019-12-31 20.31 19.55 19.55 19.95 562873.40
[2431 rows x 5 columns]
"""
初步看在2010年1月的股价,除权和前复权、后复权相差较大。接下来可视化收盘价进行对比:
图中可知他们相差甚大,用除权数据执行策略回测效果会和真实情况相差很多。
于是,当我们获取的数据为除权数据时,我们需要转换为前复权/后复权数据。这里的关键是获取到刚才提到的真实涨跌幅数据,这样我们可以在该数据的基础上计算出前/后复权因子。
我们先看下真实涨跌幅数据,如下所示:
"""
trade_date
2019-12-31 0.97
2019-12-30 0.97
2019-12-27 0.93
2019-12-26 0.93
2019-12-25 0.93
...
2010-01-08 0.25
2010-01-07 0.26
2010-01-06 0.27
2010-01-05 0.27
2010-01-04 0.26
Name: fd_factor, Length: 2244, dtype: float64
"""
如果未包含涨跌幅数据时,根据除权股价所计算得到的涨跌幅是不正确的。以下pct_chg1为除权股价的涨跌幅,可见与原始的涨跌幅pct_chg差别很大,pct_chg2为差值。
"""
pct_chg pct_chg1 pct_chg2
Date
2010-01-04 2.83 NaN NaN
2010-01-05 0.07 7.06e-04 0.07
2010-01-06 -2.12 -2.12e-02 2.10
2010-01-07 -2.88 -2.88e-02 2.85
2010-01-08 1.04 1.04e-02 1.03
... ... ... ...
2019-12-25 0.38 3.78e-03 0.37
2019-12-26 0.00 0.00e+00 0.00
2019-12-27 3.66 3.66e-02 3.62
2019-12-30 0.52 5.19e-03 0.51
2019-12-31 2.94 2.94e-02 2.91
[2244 rows x 3 columns]
"""
我们以前复权为例,处理的代码如下所示:
# 计算前复权因子
df_stock['fd_factor'] = (1 / (df_stock['pct_chg'] / 100 + 1)).cumprod()
df_stock['close_fd'] = df_stock.iloc[0]['close'] * df_stock['fd_factor']
df_stock['close_fd'] = df_stock['close_fd'].shift(1)
df_stock.iloc[0, df_stock.columns.get_loc('close_fd')] = df_stock.iloc[0, df_stock.columns.get_loc('close')]
df_stock['open_fd'] = df_stock['open'] / df_stock['close'] * df_stock['close_fd']
df_stock['high_fd'] = df_stock['high'] / df_stock['close'] * df_stock['close_fd']
df_stock['low_fd'] = df_stock['low'] / df_stock['close'] * df_stock['close_fd']
处理完成后,我们再次可视化“新希望”的收盘价数据,如下所示。可见将除权股价复权后,与前复权曲线重合。
后复权处理的代码如下所示:
df_stock['bd_factor'] = (df_stock['pct_chg']/ 100 + 1).cumprod()
initial = df_stock.iloc[0]['close'] / (1 + df_stock.iloc[0]['pct_chg']/ 100)
df_stock['close_bd'] = initial * df_stock['bd_factor']
df_stock['open_bd'] = df_stock['open'] / df_stock['close'] * df_stock['close_bd']
df_stock['high_bd'] = df_stock['high'] / df_stock['close'] * df_stock['close_bd']
df_stock['low_bd'] = df_stock['low'] / df_stock['close'] * df_stock['close_bd']
对于后复权来说,选取初始价格不同相应计算得到的复权价格也会不一样。比如我们从2010年1月1日那天开始后复权得到的行情数据和收盘价走势图如下所示:
# "后复权"
"""
High Low Open Close Volume
Date
2010-01-04 14.38 13.94 13.94 14.17 216924.78
2010-01-05 14.28 13.85 14.22 14.18 107631.41
2010-01-06 14.31 13.87 14.15 13.88 89684.00
2010-01-07 13.97 13.38 13.80 13.48 85856.01
2010-01-08 13.64 13.35 13.43 13.62 58864.09
... ... ... ... ... ...
2019-12-25 49.98 49.05 49.45 49.48 207776.34
2019-12-26 49.90 49.10 49.72 49.48 189935.42
2019-12-27 51.68 49.42 49.85 51.29 504214.70
2019-12-30 51.87 50.33 51.18 51.55 379296.95
2019-12-31 54.03 52.00 52.00 53.07 562873.40
[2244 rows x 5 columns]
"""
蓝色那条是从2010年1月1日那天后复权开始后复权的,而橙色那条是股票上市第一天开始后复权的,对比下除权数据会更直观些:
总结
以上介绍了除权和复权的定义,以及前复权和后复权的转换。后续我们会继续推出回测中如何去处理除权的情况。