中科院QQ群:974949975
中科大QQ群:648600711
考研复试资料共享(统计学)
1.常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。
逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选
基本原理: 投影
作用: 降维
2、自由度是什么?怎样确定?
答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制——要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。
所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来,自由度少一个。
3、正态分布检验中自由度问题
答:在正态分布检验中,这里的M(三个统计量)为:N(总数)、平均数和标准差。
因为我们在做正态检验时,要使用到平均数和标准差以确定该正态分布形态,此外,要计算出各个区间的理论次数,我们还需要使用到N。
所以在正态分布检验中,自由度为K-3。
4、t检验
答:t检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用方差分析。
无论哪种类型的t检验,都必须在满足特定的前提条件下: 正态性和方差齐性,应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
t检验是目前医学研究中使用频率最高,医学论文中最常见到的处理定量资料的假设检验方法。
5、统计学意义(P值)
答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。
P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联
我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)
在许多研究领域,0.05的P值通常被认为是可接受错误的边界水平。
6、如何判定结果具有真实的显著性
答:在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。
实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。
通常,许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学意义,而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。
有关中科院统计学复试/调剂更多资料及信息获取,可以联系科大科院考研网悦悦学姐微信18256097326或者火火学姐微信19159127185。
咨询学长
中科大考研交流群
中科院考研交流群
考研QQ群
名师微课
在线咨询
王老师
杨老师
709867297
680149146
友情链接
#微信公众号#
#咨询学姐#
科大科院考研网版权所有 © 2008-2011 皖 ICP 备 11001710号