一、回归分析的定义和回归直线
1、回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析。
其基本步骤是:(1)画散点图;(2)求回归直线方程;(3)用回归直线方程作预报。
2、回归直线
如果具有相关关系的两个变量的一组数据$(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系,这条直线就是回归直线,记为$\hat{y}=\hat{b}x+\hat{a}$。
3、回归直线方程的求法——最小二乘法
设具有线性相关关系的两个变量$x,y$的一组观察值为$(x_i,y_i)(i=1,2,\cdots,n)$,则回归直线方程$\hat{y}=\hat{b}x+\hat{a}$的系数为$\hat{b}=\frac{\sum\limits_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n} (x_i-\bar{x})^2}=\frac{\sum\limits_{i=1}^{n} x_iy_i-n\bar{x}\bar{y}}{\sum\limits_{i=1}^{n} x^2_i-n\bar{x}^2}$,$ \hat{a}=\bar{y}-\hat{b}\bar{x}$,其中$(x_i,y_i)$为样本数据,$\bar{x}=\frac{1}{n}\sum\limits_{i=1}^{n}{x_i}$,$\bar{y}=\frac{1}{n}\sum\limits_{i=1}^{n}{y_i}$为样本平均数。
注:1、$(\bar{x},\bar{y})$称为样本点的中心,回归直线$\hat{y}=\hat{b}x+\hat{a}$一定经过样本点的中心$(\bar{x},\bar{y})$。
2、当回归直线的斜率$\hat{b}>0$时,为线性正相关,当$\hat{b}<0$时,为线性负相关。
3、回归直线方程$\hat{y}=\hat{b}x+\hat{a}$中的$\hat{y}$是为了与$y$的实际值区别。
4、随机误差
由于所有的样本点不共线,只是散布在某一条直线的附近,所以两变量之间的关系可用线性回归模型$y=bx+a+e$来表示,$a$和$b$为模型的未知参数,$e$是$y$与$bx$+$a$之间的误差。通常$e$为随机变量,称为随机误差,它的均值$E(e)$=0,方差$D(e)=σ^2>0$。这样线性回归模型的完整表达式为$\begin{cases}y=bx+a+e,\\E(e)=0,D(e)=σ^2\end{cases}$,随机误差$e$的方差$σ^2$越小,通过回归直线预报真实值$y$的精确度越高。
5、线性相关系数
对于变量$x$与$y$随机抽取到的$n$对数据,利用$(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$相关系数$r$来衡量两个变量之间线性关系的强弱,相关系数$r$的计算公式为$r=\frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i- \bar{x})^2·\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}}$=$\frac{\sum\limits_{i=1}^{n}{x_iy_i}-n\bar{x}\bar{y}}{\sqrt{\left(\sum\limits_{i=1}^{n}{x^2_i-n\bar{x}}^2\right)\left(\sum\limits_{i=1}^{n}{y^2_i}-n\bar{y}^2\right)}}$。
(1)当$r$>0时,表明两个变量正相关;当$r$<0时,表明两个变量负相关。
(2)$|r|$越接近于1,表明两个变量的线性相关性越强;$|r|$越接近于0,表明两个变量之间几乎不存在线性相关关系。通常$|r|$大于0.75时,认为两个变量有很强的线性相关性。
二、回归分析的相关例题
已知变量$x$和$y$满足关系$y$=-2$x$+1,变量$y$
与$z$正相关,下列结论中正确的是___
A.$x$与$y$正相关,$x$与$z$负相关
B.$x$与$y$正相关,$x$与$z$正相关
C.$x$与$y$负相关,$x$与$z$负相关
D.$x$与$y$负相关,$x$与$z$正相关
答案:C
解析:根据题意,变量$x$和$y$满足关系$y$=-2$x$+1,其相关系数为-2<0,所以$x$与$y$负相关,又由变量$y$与$z$正相关知$x$与$z$负相关,故选C。