本文来自微信公众号“远行客陈龙”。原文标题《双十一的销售额可预测吗?》。
自11月11日00:00开始,天猫双11的战绩不断更新,最终定格在2684亿元。
即时,网友提出质疑,称其按照公式已提前得出2019年双11的大致成绩为2689亿元,且过去十年双11数据都可用该统计模型模拟,所得数字与天猫公布的数字存在99.9%的契合。
一时争论四起。马云对此辟谣:网络时代,每分钱都极其准确。
根据《巴伦》中国近日发布的《2019中概股投资价值报告》,阿里巴巴(BABA.US)是该年度“最具投资价值TOP50”的榜首。报告指出,阿里巴巴的“最佳投资价值”不仅仅体现在其市值(公司规模)占据在美上市的中概股总市值的50%,同时在公司质量、量价走势、中概排名、市场热度、用户热度以及互联网问卷调查、专家调研等多个维度获得了绝对优势的评价得分。
《巴伦》中国在《2019中概股投资价值报告》称:”阿里巴巴不仅是最赚钱的公司,也是最具投资价值的公司。投资者唯一需要考虑的是什么时间买入“。鉴于阿里巴巴在中概股中的庞大体量和重要角色,《巴伦》对其保持高度关注,以求在波动中甄别交易风险和交易时机。
昨天看到一个帖子说,过去10年双十一的数据可以用统计模型模拟,达到99.9%的契合,这不可能,所以得出结论是大骗子,骗了中国人民十年。
我们把美国的GDP用同样的方法拟合了一下,发现拟合度99.8%,然后把今年的猪数量拟合了一下,拟合度99.5%。所以按照这个神逻辑,我们可以做出结论,美国的GDP其实是造假,还有不用为猪肉担心了,因为猪肉的供给短缺也是造假。
这里最根本的问题,是因为只有10个点的数据,很容易用灵活的多参数方法达到过度拟合,短期预测还可能挺准确。最怕不懂装懂。老师喊那位回学校回炉一下。
用曲线拟合一段数据,本质上,就是要找到一个函数形式,使得这一列观测到的数据尽可能地“恰好”落在这个函数对应的曲线上。理论上,数学分析里的斯通-魏尔特拉斯定理保证了,任何一个连续函数都可以通过一列多项式来实现完美的拟合。在数据科学和社会科学的实践中,由于多项式是最简单和函数形式之一,通过调试多项式的系数一般就可以对很好地拟合一段时间序列数据。
我们都知道,二次函数是一个抛物线,或者碗型的曲线,它很适合用来拟合比较简单的升降,或者光滑的单调变动。三次函数有一个局部的峰值和谷底,曲率也有比较大的变化,可以允许更大的波动性,实践中拟合一些简单变动的曲线效果已经非常好了。
对于一些简单的宏观上的增长曲线,由于三次多项式包含了四个可以调整的参数,可以调整的空间非常大,常常会得到极高的拟合程度,甚至会出现过度拟合的现象。
比如拿美国2009到2018年的GDP的十个点作为时间序列,通过调整三次多项式的四个参数来进行拟合,得到的估计对数据的解释力(我们暂且把统计回归的R平方简单理解为回归结果的解释力)已经是99.83%。
类似地,我们以2008年到2017年美国黑色星期五零售业销售总额的数据为例:二次多项式拟合解释力99.44%,对2018年的预测值是7070亿美元,三次多项式拟合模型解释力为99.45%,对2018年的预测值是7101亿美元,四次多项式解释了99.61%,预测值为7302亿美元,而2018年的实际值为7175美元。
从统计学上看,对于少量的点,无论是任何形状,只要允许增加参数,很容易得到看似“完美”的拟合。比如我们对十年的生猪存栏数——这一弯弯曲曲的时间序列——用六次多项式也能得到99.53%的近乎“完美”的拟合。
对于一些常见的经济总量数据,由于它不容易受到结构性影响,波动不大,趋势较为明显,这类数据用多项式拟合起来尤其容易。就像我们看大海,海平面地下包罗万象,杂乱无序,但从上面看,无论是潮汐还是波浪,都显示出极强的规律性。但是,拟合并不是解释,更不是预测。那么,怎么才能解释,怎么才能预测呢?
从个体的角度,每个家庭每年双十一这一天的购物额,可能受到各种各样因素的影响,是不是家里有了宝宝需要屯奶粉,是不是搬了新家要添置大件,甚至突然心情不好想要多买些巧克力,等等等等。但一个社会里,一个经济体内,几亿人购物额的加总,就如同海面上看到的潮汐,最终起到决定因素的,无非是几个关键的力量,经济增长率、收入增长率、消费产品结构变化。
从微观动机到宏观行为,从微观里的纷乱到宏观数据的规律性,两百多年来,无数经济学家穷尽智慧,就是想要从微观经济行为的杂乱无序里,剥离出决定社会状况的几个关键因素:人力资本积累、技术进步、制度改革。理解并推动这些根本因素的变化,通过有智慧的政策设计,就能促进经济增长,就能增加就业,就能减少贫困。
企业、学界、政策制定者,所有人的努力,都是让我们每个人都能在每年的双十一能有更好的消费经历,让我们每个小家庭离心里设想的那个美好生活,更近一步。
(编辑:李国坚)