今天的研究问题有点独特。
冰淇淋销量和溺水事故人数之间有什么关系?假设有如下虚拟数据。
对其作回归线后,如下图所示。

这里的斜率和截距分别有什么含义呢?
1. 好的回归线与差的回归线
在估计回归分析的图形时,应当怎么做?
当然,用肉眼也能直观判断哪条线更能解释数据,但如果要写论文,就必须能用数学方式来表达这一点。
这时会用到所谓的残差(residual)。
残差 = 实际值 - 预测值。
残差越小,可以说回归线越好。

但是简单把残差相加会产生问题。
因为残差既可能为正,也可能为负。
因此会计算将残差平方后的最小二乘和。
通过这个就可以分析回归线的拟合优度。
2. 线性回归分析
这是用一条直线来概括变量之间相关性的过程。
寻找回归线的过程,就是求出截距和斜率的过程。
在线性回归分析中,同样是要找出使最小二乘和最小的截距和斜率。

3. 后记
在评价回归线时,会用到“最小二乘和”这一概念,本身让我觉得非常新奇。
与我之前那种“只要回归线和数据看起来差不多就行”的简单想法不同,需要把它用数学方式加以定义并掌握,这一点带来了全新的感觉。
而且这个定义本身并不难。
今天又学到了一样东西。
댓글을 불러오는 중...