只有满足古典假定,估计量才具有优良性质:BLUE
在迄今为止的同归模型中,我们着重考察解释变量 x 对被解释变量 y 的条件期望 E (y|x) 的 影响,实际上是均值回归。但我们真正关心的是 x 对整个条件分布 y|x 的影响,而条件期望 E(y|x) 只是刻画条件分布 y|x 集中趋势的一个指标而已。如果条件分布 y|x 不是对称分布,则条件期望 E( y|x )很难反映整个条件分布的全貌。如果能够估计出条件分布 y|x 的若干重要的条件分位数,比如中位数、1/4 分位数 ,3/4 分位数,就能对条件分布 y|x 有更全面的认识。另一方面, 使用 OLS 的古典“均值同归”,由于最小化的目标函数为残差平方和 (∑ni=1e2i), 故容易受极端值的影响。
为此, Koenker and Bassett( 1978 ) 提出“分位数同归”(Quantile Regression,简记 QR ) ,使用残差绝对值的加权平均(比如 ∑ni=1|ei| ) 作为最小化的目标函数,故不易受极端值影响,较为稳健。更重要的是,分位数回归还能提供关于条件分布 y|x 的全面信息。
Qt(y|x)=xTβτ
其中 τ 为分位点, βτ 为依赖于分位点的回归系数
由于分位数回归的目标函数带有绝对值,不可微分,故通常使用线性规划。
详情可参考:statsmodels 官方文档
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
data = pd.read_excel('../数据/上证指数与沪深300.xlsx')
mod = smf.quantreg("data['hs300'] ~ data['sz']", data)
res = mod.fit(q=0.3)
res.summary()
Dep. Variable: | data['hs300'] | Pseudo R-squared: | 0.7878 |
---|---|---|---|
Model: | QuantReg | Bandwidth: | 57.44 |
Method: | Least Squares | Sparsity: | 149.5 |
Date: | Sat, 11 Jul 2020 | No. Observations: | 460 |
Time: | 22:06:40 | Df Residuals: | 458 |
Df Model: | 1 |
coef | std err | t | P>|t| | [0.025 | 0.975] | |
---|---|---|---|---|---|---|
Intercept | -173.7703 | 45.949 | -3.782 | 0.000 | -264.066 | -83.474 |
data['sz'] | 1.2845 | 0.016 | 82.112 | 0.000 | 1.254 | 1.315 |
import statsmodels.regression.quantile_regression as qr
import statsmodels.api as sm
X = sm.add_constant(data['sz'])
mod = qr.QuantReg(data['hs300'], X)
res = mod.fit(q=0.3)
res.summary()
Dep. Variable: | hs300 | Pseudo R-squared: | 0.7878 |
---|---|---|---|
Model: | QuantReg | Bandwidth: | 57.44 |
Method: | Least Squares | Sparsity: | 149.5 |
Date: | Sat, 11 Jul 2020 | No. Observations: | 460 |
Time: | 22:06:40 | Df Residuals: | 458 |
Df Model: | 1 |
coef | std err | t | P>|t| | [0.025 | 0.975] | |
---|---|---|---|---|---|---|
const | -173.7703 | 45.949 | -3.782 | 0.000 | -264.066 | -83.474 |
sz | 1.2845 | 0.016 | 82.112 | 0.000 | 1.254 | 1.315 |