大数据时代,应该学点统计学

都说大数据时代已经来了,云计算和大数据将会是未来三十年科技革命的驱动力。而统计对大数据的生命力和应用价值都有着至关重要的作用。
 

统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。哥伦比亚大学教授Chris Blattman在给学生的建议中多次强调统计学的重要性,统计是要学会和理解的语言,不论未来的专业是什么,统计学都会极为有用。(哥大教授告诉你上大学前要知道的10件事,适用于每个孩子)

 

 

根据College Board官方说明,AP统计学涉及106个职业领域和32个大学专业,包括市场营销、广告、工程、计算机与信息技术、经济金融、天文、教学、心理、物理等等。AP统计学相当于大学入门级统计学课程水平,随着大数据在各行各业的应用,在美国的选修人数越来越多。

 

AP统计学考试分为选择题和简答题,包括数据分析(20-30%)、实验设计(10-15%)、概率及分布(20-30%)、基于点估算的推论、置信区间、显著性水平等(30-40%)四大部分内容。(联系格为君索取AP统计学手册)

 

AP统计学的题目一般比较长,解释分析题目也需要一定的语言表达技巧。所以,AP统计学考试对题目的理解和解答方法的掌握至关重要,常用公式也要求烂熟于心

第一个故事

 

假设所有20岁的中国人中,男女比例是1:1。现在要挑100个人出来,然后让你来猜猜100人中的男女比例可能是多少。

 

那么我们就要考虑了,这100个人来自何方?

 

从解放军中挑吗?解放军中女兵远远少于男兵,如果100人都来自解放军,很可能挑到的全都是男生,一个女生也没有。

 

那从护士中挑呢?恐怕情况就要反过来了,因为女护士远远多于男护士。所以,要使得一开始的假设“男女比例是1:1”不是一句废话,这一百个人只能“随机地”从所有20岁的中国人中去挑。

 

这个问题中“所有20岁的中国人的性别”叫做总体(population),被挑到的100个人的性别叫做样本(sample)。

 

有同学可能会疑惑,为什么总体是“所有20岁中国人的性别”,只写”所有20岁中国人“做总体不行吗?答案是:不行。因为20岁的中国人身上有很多特征,比如身高、体重、IQ等等,我们现在只关注性别,所以总体必须具体到个体的特征。

 

在这个问题中,我们要做的是根据总体的性质来对样本的性质进行估计(inference)。

 

但是要想通过总体的性质来估计样本的性质,你所选取到的样本必须有“有代表性”(representative),即样本和总体之间是一一对应的关系。

 

就像现在这个问题,如果我们的分析目标是解放军中的男女比例问题,那么总体就是20岁的解放军中的男女比例,假设是 9:1吧。此时样本就只能从20岁解放军中随机挑100个人,而不是从20岁的所有中国人中挑。

 

好了,接下来猜猜100人中,会全是男的吗?会全是女的吗?或者90%是男的,10%是女的吗?当然我们不能完全排除这种可能,但这仅仅是一种可能。如果总体中的男女比例真是1:1,这三种情况都是不太可能发生的。那比较可能的是什么情况呢?

 

男生50%,女生50%,当然可能,但也不一定。完全有可能男生53%,女生47%. 你从总体中抽取不同的样本,当然就会得到不同的结果。不同样本之间的差异,叫做statistical error,注意error是误差,不是错误。

 

在故事一中,我们是根据总体的情况,来分析样本的情况,也就是说已知总体,分析样本。

第二个故事

 

仍然是考虑所有20岁的中国人中的男女比例问题。但出发点变了。现在我们不知道所有20岁中国人中的男女比例究竟是多少。我们要通过做试验来对这个客观存在,但我们不知道的比值进行估计。

 

那么这个试验怎么做呢?

第一步挑样本。

第二步做估计(estimation)。

 

有了第一个故事的基础,这里就不赘述,这个样本自然应该是从所有的20岁中国人中随机抽取的。

 

假设现在你已经挑好了一个100人的样本,样本中男女比例是51:49。这种情况下,你会做出怎样的估计呢?

 

如果是没学过统计的同学,可能就会直接说,根据调查结果,所有20岁中国人中的男女比例就是51:49。但我们现在多思考一步,这个总体中的男女比例,就必然恰好是51:49吗?就不会是51.1:48.9或者 50.9:49.1吗? 毕竟,我们的调查仅仅分析了一个100人的样本,并不是总体的全部。

 

当然,反过来考虑,总体中的男女比例,应该也不太可能是99:1的极端情况。因为如果总体中的男女比例真得是99:1的极端情况,我们挑选的100人的样本中就不太可能能挑到女生了。

 

从这个角度我们就会发现:如果样本比例是51:49,那么总体比例虽然不一定是51:49,但应该离着51:49不会太远,而且是离着越近,可能越大。

 

我们以这个男性样本比例( 51%)为中心,做一个区间(interval)出来,比如(46%, 56%),这个区间就叫做置信区间(confidence interval),我们刚刚完成的操作叫做区间估计(interval estimation)。总体中的男生比例以一定的概率(这个概率叫做置信水平confidence level)会处于这个置信区间内。

 

在这个故事中,我们是已知样本,来估计总体。

第三个故事

 

这个故事是由两个人的争论引起的。张三说:所有20岁的中国人中,男女比例是9:1。李四表示不相信,并决定用试验推翻张三的结论。

 

于是李四去挑了一组样本。结果发现李四挑的这组样本中男女比例是50:50,和张三的假设相去甚远。这说明什么问题呢?

 

1、如果张三关于总体的假设是成立的,即:20岁中国人中确实是男生比女生要多得多,这种情况下,李四挑到的就是一个一般不可能被挑到的样本(因总体中男生比例远远高于女生,一般的样本中男生比例也应该远远高于女生),即:李四中奖了。

 

2、一般情况下,我们认为随机抽取的样本不太可能“中奖”,即:李四的结论没有问题。那么反过来,这就表示张三的假设有问题。

 

我们管这个操作叫做假设检验(hypothesis test)。

 

第三个故事仍然是从样本出发,来分析总体,只不过是要对于总体的假设进行检验。

 

现在你是否对统计学有了一个大致的印象?

 

(以上三个统计学故事来自z____w的博客)

 

更多AP课程
翰林国际教育资讯二维码