标准差是什么（标准差的计算公式实例）

一个有效的阿尔法因子应该能够带来长期且稳定的超额收益，同时因子在各期的表现应该具备较好的持续性，即具备较低的波动性，根据因子挑选出来的组合是否具备较高的胜率也是我们考察的标准之一，同时该因子的显著性变化特性也需要关注。

一般筛选因子的主要原则有：

数据的准确性和真实性
数据的完整性
数据来源的稳定性

以多个指标相结合的方式来考察各个因子的有效性。指标可分为两类，即有效性指标和单调性指标。有效性指标，通过跟踪超低配组合的表现来考察因子的有效性，包含IC、ICIR、组合胜率、组合月收益率、组合滚动1年收益率及组合收益t检验概率。

XX证券研报《多因子系列报告之一：因子测试框架》认为，为了使测试结果更符合投资逻辑，应该设定三条样本筛选规则：

剔除选股日的ST/PT股票
剔除上市不满一年的股票
剔除选股日由于停牌等原因而无法买入的股票

同时在进行一系列计算之前，一定要对数据做处理，因为多因子模型面对的数据大部分是企业财报数据，虽然根据发布规范其单位格式统一，但数据随企业基本面信息而千差万别，缺失、0值、错误值、离群点这些问题可能都会有。

因为，数据清洗的一般处理方式如下：

删除异常值（逻辑上不应该出现的0值或负值）、缺失值
删除分布特性上的特殊值（离群的极值）

由于常见的3标准差（3倍标准差之外的数据清除）去极值法是基于样本服从正态分布这个假设的，但往往我们发现大部分因子值的分布并不服从正态分布，厚尾分布的情况较为普遍，因此采用更加稳健的MAD（Median Absolute Deviation，绝对中位数法）。

首先计算因子值的中位数Median，并定义绝对中位值为：

MAD = Median（|fi Medianf|）

MAD也被称为绝对中位离差，各项变量与中位数之差叫离差，它是单变量数据集中样本差异性的稳健度量，也被认为是一个鲁棒性强的统计量，对于数据集中异常值的处理比标准差更具有弹性，可以大大减少异常值（数据噪声）对于数据集的影响，这一点对处理金融数据（特别是基本面数据）有极大帮助。

将大于Medianf + 3 * 1.4826 * MAD的值或小于Medianf + 3 * 1.4826 * MAD的值定义为异常值。在对异常值做处理时，需要根据因子的具体情况来决定是直接剔除异常值，还是将异常值设为上下限的数值，后者为常用方法。

单因子绩效指标

紧接着就是数据标准化过程，一般都会建议建模人员选择Z-score值做标准化来处理因子数据，因为它不会改变数据的概率密度，使数据中的一些特殊关系信息能完整地留存下来，只是被归一到了一个区间。具体要使用哪些因子投资、什么样的因子好用或者耐用、什么样的因子可以被放入多因子模型中，有以下几点需要注意。

因子IC（秩相关信息系数）：即每个时点，因子在各股票的暴露值与各股票下期回报的相关系数（或秩相关系数）。一般来说，如果一个因子的IC绝对值高于2%，则认为该因子在优选个股阿尔法收益上有较好的结果。IC值为正，表示该因子与股票的未来收益有正相关关系，应该超配因子暴露值高的股票；反之，若IC值为负，则超配因子暴露值低的股票。
因子ICIR（IC的信息比率）：即因子在样本期间的平均年化收益与年化平均标准差的比值。ICIR绝对值越高，表面该因子在优选个股阿尔法收益上效果越好。另外，经统计发现，ICIR绝对值高于0.7时，阿尔法因子的选股效果通常比较明显。
zui佳组合收益（资金曲线序列）：因子按照正向或负向，可以以升序或降序对股票进行排序，然后即可得到买入资金曲线。我们可以衡量zui佳组的收益曲线，一般是分为10组后的第一组，或者zui后一组。有时为了更加显著地体现收益情况，我们还会做多第一组，做空zui后一组，然后观察资金曲线是否平滑。一旦产生较大的回撤，则证明在回撤点位附近的时间点存在较大的价格风险暴露。
收益单调性（分层效果）：通过分析各档股票组合的表现是否具备显著的单调性（显著区分好股票和坏股票），从而考察因子的有效性，包含各档累积收益率、各档相对基准累积收益率、各档平均年收益率及各档相对基准平均年收益率。一般来说，IC和ICIR值较高且为正时，各档组合的收益表现呈现单调递增的规则；IC和ICIR值较高且为负时，各档组合的收益表现呈现单调递减的规律。
单因子之间的收益率相关性：部分优秀的因子同质性较高，IC值曲线呈现出高相关的特性，此时我们要做每个回归日期截面的相关矩阵分析。所以在筛选规模因子时需要有所取舍，只能保留显著性高并且相关性低的因子，zui终送入多因子模型中，但是并非相关性高的因子只能选其一，比如两个高相关性的因子A和B，我们准备剔除B因子，但是它也有超额收益，所以又想保留。此时可以对两个因子A和B做线性回归，残差即为A无法解释B的部分，相当于对B因子做了一次以A因子为目标的中性化。中性化如何做呢，可以参考之前的文章高频因子低频交易，聪明钱因子模型。逻辑上的相关性也十分重要，一般用于描述同样特质的因子只选择少数几个甚至一个因子，因为量化分析本身就是放大了收益或者放大了亏损，幸存者偏差遍布模型开发的每个环节，此时做数据挖掘存在极大的风险。
因子IC半衰期：因子是具有时效性的，IC作为度量因子有效性的主要指标，我们不能只看其值高低，其稳定性也值得关注。因子IC衰退，是通过观察随着滞后时间的延长，因子有效性降低的速度。研究发现，很多因子具有相对稳定的半衰期，即因子有效性降低为一半所需的时间，因而可以通过观察半衰期的长短来判断该因子的稳定情况。较为学术的描述这个观点：IC衰减是指在时间维度和横截面股票维度上预测能力的降低。计算公式是当期因子值和滞后N期的收益率做线性回归，然后绘制出当期IC和滞后1期、滞后2期、滞后N（一般限定在半年内）期的IC序列，观察其衰减到一半所用的时间。回测过程中，我们发现，常见财务基本面数据IC衰减较慢，而价量因子IC衰减较快，所以前者可以适应较长时间的持仓，后者需要频繁调仓，造成换手率较高、交易成本冲击较大。IC衰减非常缓慢，主要特点是在其周期的时间序列上，zui后的IC接近或不足之前的50%水平。