供稿单位:互联网 责编:本站编辑 浏览: 0 次
统计学其实就是研究数据,包括收集数据、整理数据、分析数据以及根据数据进行推断。各种统计的手段和思维方法归根到底都是在分析数据并从中得出结论。
统计学是一门非常实用的课程。一个数学老师可能会为日常生活中如何运用代数而纠结,但是统计学却是无处不在的。斗地主、三国杀、炒股等日常生活你肯定会用到;科研数据分析,公司商业调查,大选民意调查,甚至是战争中对敌军军力的推测验证等无一不需要统计学的指导。
Quantitative versus Qualitative Data 定量与定性数据
定量数据(也称数值数据),即用数字测量及描述的数据。比如班上学生的身高;高速公路上的平均车速;SAT的考试成绩;水库的每日气温;科比每场比赛的投篮命中率等。
定性数据(也称分类数据),即可以进行分类的数据。比如性别;宗教信仰;皮肤颜色;教育水平;富裕程度等。
一般条件下,定性数据的分类标准都是用文字描述的,区分定性数据和定量数据就比较容易。但是有时定性数据的分类标准会是数字。比如我们以“家庭人口数”来把每个人划分到“1”、“2”、“3”、“4”等小组时,这些数字就是分类数据。当然,通常情况下,我们都是把“1、2、3、4”这些数字作为描述家庭人口总数的定量数据。
总体来说,区分两者的关键在于数据是否用于分类这一目的。
iscrete and Continuous Data 离散与连续数据
定量数据本身可以分为离散的和连续的两种。离散式数据通常是有限的并且能用序号进行排列的数据,最常见的是一些只能用整数表示的数据,比如班级人数,鞋子的尺码,掷骰子的点数等。特 ,n=1,2,3,…这样的由无限个数字组成的数组也是离散数据,因为它们可以用n这个整数阶次来排序。而连续式数据是无限的,因为在一个区间内可以取到任意一个数值,比如身高,年龄,网球球速等,在一个合理范围内任意一个小数的数值都可能出现。
区分两者的关键在于这种数据是否能在已有的范围内任意 ,n=1,2,3,&helli 和0 。
Descriptive versus Inferential Statistics 描述性与推断性统计
统计学最主要的两种功能就是描述数据和从数据中推断结论。描述性统计通常被称为探索性数据分析,由分析数据和图形两个部分组
成。比如对于单变量数据,我们会计算分布的中心(平均值和中位数),离差(方差、标准差、全距、四分位距),并通过绘图来观察它的形状以及聚类、间隙特性(点图、盒式图、直方图、茎叶图)。对于二元数据,我们关心的是两种变量之间的关系,通常会计算相关度和回归线并绘制散点图。
之后的第2、3节的主要内容就是探索性数据分析,第4节讨论的是收集数据的过程,第5、6节讲解的是有关推断的概率基础。
推断性统计即根据样本的数据来推断提取样本的总体的特性。比如联通想调查清华大学学生的平均月手机消费,最准确的结果当然是从所有学生那里收集数据并分析得出。但是明显这是非常费时费力的,而且没有官方的支持,很多学生都不会配合你。所以通常的做法都是从所有清华学生中选择一个随机的样本,从这个样本中收集数据并加以分析,最后以此对总体进行推测和判断。
最后的第7-10节讲述的推断性统计的内容。
Parameters versus Statistics 参数与统计量
用来描述样本的数据称为统计量,而描述总体的数据则称为参数。在推断性统计中,我们用统计量来估计参数。比如上面的例子中,样本的平均月手机消费就是统计量;如果学校出面调查出真实的全校学生的平均月手机消费,这个值就是参数。
Census,Sample Survey, Experiments, Observational Studies 普查,抽样调查,实验,观察学习
在很多的大学统计学课程中,分析和推断性统计就是核心内容,但是在AP统计学中,数据的收集也是一块重要的内容。
之前提到过,普查——直接对总体进行数据收集是非常困难的,实际中我们一般会在总体之中选择一个随机样本来进行抽样调查,再通过计算得到的统计量推断总体的参数。
在很多情况下,我们希望知道的是人们或事物对特定刺激的反应,比如鲨鱼害怕什么颜色。这种情况下我们会建立一个实验或是一次观察学习。实验和观察学习的共同点在于都设置了特定组和对比组两个小组,并且尽力使得两个小组的不同就是我们研究的目标(比如鲨鱼实验中只有冲浪板的颜色不同)。实验和观察学习的区别在于实验会实现定好每条鲨鱼在哪个小组以及用什么颜色的冲浪板;而观察学习则没有任何干预手段,只是观察每条鲨鱼恰好遇到某种颜色冲浪板时的反应。所以实验能够更好地控制影响因素,从而揭示出因果关系,而观察学习只能推测。
具体细节在第4节中会详述。
Random Variables 随机变量
随机变量会在第5节中具体讲解,但考虑到它在整个课程中的重要性,这里先简要介绍一下。一个随机变量可以理解为一次实验或者一个随机现象的数值结果。比如我们掷三次骰子,正面朝上的次数就是一个离散式随机变量,它的结果可能是0,1,2或3。再比如1岁婴儿的身高,就是一个连续式随机变量。
随机变量是推断性统计的基础,特定的随机变量才能产生特定的概率分布,我们才能对样本统计量的分布进行基于概率的判断。
热门文章
- 【潇湘晨报】麻省理工“学霸”成长路,...08/07
- 中国高中生学美国AP课程“趋热”09/15
- 2014年AP课程考试全新修订03/19
- 长郡中学国际部-长郡中学美国AP课程中...04/20
- AP课程,中美有何差异07/07