【SPSS三因素混合设计语法分享】

目前正在进行的一项研究,实验设计为:2(被试间因素)*3(被试内因素1)*2(被试内因素2)

三因素交互作用显著后,要进行简单简单效应分析。由于SPSS中没有直接的操作按键可以完成这项分析,因此需要通过特定的语法完成。

在此和大家分享:

1、一个被试内因素在另外两个因素组合条件下的简单简单效应检验语法

针对被试内因素B时
MANOVA B1C1 B1C2 B2C1 B2C2 B3C1 B3C2 BY A(1,2)
/WSFACTORS=B(3)C(2)
/PRINT=CELLINFO(MEANS)
/WSDESIGN
/DESIGN
/WSDESIGN= B WITHIN C(1) B WITHIN C(2)
/DESIGN=MWITHIN A(1) MWITHIN A(2).

针对被试内因素C时
MANOVA B1C1 B1C2 B2C1 B2C2 B3C1 B3C2 BY A(1,2)
/WSFACTORS=B(3)C(2)
/PRINT=CELLINFO(MEANS)
/WSDESIGN
/DESIGN
/WSDESIGN=C WITHIN B(1) C WITHIN B(2) C WITHIN B(3)
/DESIGN=MWITHIN A(1) MWITHIN A(2).

2、被试间因素在两个被试内因素上的简单简单效应语法如下
MANOVA B1C1 B1C2 B2C1 B2C2 B3C1 B3C2 BY A(1,2)
/WSFACTORS=B(3)C(2)
/PRINT=CELLINFO(MEANS)
/WSDESIGN
/DESIGN
/WSDESIGN=MWITHIN B(1) WITHIN C(1) MWITHIN B(2) WITHIN C(1) MWITHIN B(1) WITHIN C(2)
MWITHIN B(2) WITHIN C(2) MWITHIN B(3) WITHIN C(1) MWITHIN B(3) WITHIN C(2)
/DESIGN=A.

希望以上内容对你有帮助 :)

Posted in Uncategorized | Leave a comment

【《统计软件应用》apply&tapply&lapply&sapply&mapply】

http://www.pm2d5.com/从这个网址可以下载到不同城市PM2.5的测量值。

上面得到的数据框 data,其中 data$pm 有 36 个数值,可以按日期分成 18 组,也可以按城市分成两组,这个分组信息就是因子。
先要对数据进行转换,日期和城市两列数据还不是因子,而是整数和字符。要想转换成因子,就要这样:
data$city <- factor(data$city)
str(data)
因子,也可以叫做分类变量,就是对某个向量进行分组的向量。现在data$city 是个因子了。因子的取值叫做“水平”(level)。看看因子有几个水平,水平分别是什么的语句如下:
nlevels(data$city)##显示水平数##
levels(data$city)##显示水平名称##
因子是用来对数据分类。比如:
plot(x = data$city, y = data$pm) #当x是因子时,plot自动画出箱型图。
等同于boxplot(data$pm ~ data$city)

apply函数(对一个数组按行或者按列进行计算):
使用格式为:apply(X, MARGIN, FUN, ...)
其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。

tapply函数(进行分组统计):
使用格式为:
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
其中X通常是一向量;INDEX是一个list对象,且该list中的每一个元素都是与X有同样长度的因子;FUN是需要计算的函数;simplify是逻辑变量,若取值为TRUE(默认值),且函数FUN的计算结果总是为一个标量值,那么函数tapply返回一个数组;若取值为FALSE,则函数tapply的返回值为一个list对象。需要注意的是,当第二个参数INDEX不是因子时,函数 tapply() 同样有效,因为必要时 R 会用 as.factor()把参数强制转换成因子。
举例子:




lapply函数的使用格式为:
lapply(X, FUN, ...)
lapply的返回值是和一个和X有相同的长度的list对象,这个list对象中的每个元素是将函数FUN应用到X的每一个元素。其中X为List对象(该list的每个元素都是一个向量),其他类型的对象会被R通过函数as.list()自动转换为list类型。

sapply函数是lapply的一个特殊情形,对一些参数的值进行了一些限定,其使用格式为:
sapply(X, FUN,..., simplify = TRUE, USE.NAMES = TRUE)
sapply(*, simplify = FALSE, USE.NAMES = FALSE) 和lapply(*)的返回值是相同的。如果参数simplify=TRUE,则函数sapply的返回值不是一个list,而是一个矩阵;若simplify=FALSE,则函数sapply的返回值仍然是一个list。

mapply函数:
函数mapply是函数sapply的变形版,mapply 将函数 FUN 依次应用每一个参数的第一个元素、第二个元素、第三个元素上。函数mapply的使用格式如下:
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)
其中参数MoreArgs表示函数FUN的参数列表。

Posted in Uncategorized | 1 Comment

【《统计软件应用》蒙特卡罗模拟(随机游走续)】

Monte Carlo方法的基本思想很早以前就被人们所发现和利用。早在17世纪,人们就知道用事件发生的“频率”来决定事件的“概率”。19世纪人们用投针试验的方法来决定圆周率π。本世纪40年代电子计算机的出现,特别是近年来高速电子计算机的出现,使得用数学方法在计算机上大量、快速地模拟这样的试验成为可能。

考虑平面上的一个边长为1的正方形及其内部的一个形状不规则的“图形”,如何求出这个“图形”的面积呢?Monte Carlo方法是这样一种“随机化”的方法:向该正方形“随机地”投掷N个点,有M个点落于“图形”内,则该“图形”的面积近似为M/N。

科技计算中的问题比这要复杂得多。比如金融衍生产品(期权、期货、掉期等)的定价及交易风险估算,问题的维数(即变量的个数)可能高达数百甚至数千。对这类问题,难度随维数的增加呈指数增长,这就是所谓的“维数的灾难”(Curse of Dimensionality),传统的数值方法难以对付(即使使用速度最快的计算机)。Monte Carlo方法能很好地用来对付维数的灾难,因为该方法的计算复杂性不再依赖于维数。

A monte carlo experiment




## Monte Carlo 方法可以在经济学、金融学、生物学等领域进行应用。 比如我们可以用Monte Carlo sums 来计算一个人 normal cumulative distribution function (虽然这其实可以再软件或算计机中轻松找到...)当然,更重要的是在上用来分析价格与收益率(就是在上一篇市场随机游走的基础上).##

Posted in Uncategorized | 1 Comment

【《统计软件应用》MLwiN操作视屏】

第一部分!
high schav组相对mid schav组

http://v.youku.com/v_show/id_XNTYzODAxNDYw.html

第二部分!
悲催的死机瞬间
做完第一组以后正想添加第二组线上去,结果软件居然崩溃啦T T

http://v.youku.com/v_show/id_XNTYzODAxOTg0.html

第三部分!
low schav组相对mid schav组同样图形
锲而不舍,我重新来一遍但前一幅图就消失啦,叠加效果还请各位看官脑补啦><~

http://v.youku.com/v_show/id_XNTYzODAyNzg4.html

Posted in Uncategorized | 1 Comment

【《统计软件应用》有效市场的价格随机游走模拟】

哈耶克的理论:如果市场是有效的,那么所有信息已经反映在当前价格中,而未来的价格则是“random walk”(随机游走)的。



Posted in Uncategorized | 1 Comment

【《统计软件应用》SPSS Vs. MLwiN】

从前只知道有通用的SPSS,上了课后发现针对不同数据处理需要还有R、MLwin、SAS。(程序猿苦、程序猿累,程序猿非人类><,向程序猿致敬~!)
这些软件确派上很大用场。比如,在心理学和社会学的研究中,数据(各个因素)往往具有嵌套结构的特点。

【多水平模型】是在固定效应模型和随机效应模型等方差成分分析上发展起来的,同时还充分考虑了层次结构数据的信息,具有很多的优点。
第一,允许观察单位之间不独立和方差不齐,从而可以修正一般回归分析引起的参数标准误估计偏倚的问题。第二,可将解释变量和随机误差分解到个体水平和组水平上,从而可以研究结局变量在组内和组间的变异情况。第三,可同时考虑随机效应和固定效应。第四,可分析稀少数据和缺失数据。对于稀少数据,可利用收缩估计(shrinkage estimation)方法或bootstrap多层模型来分析处理,此外,多水平模型的参数估计方法(如ML法)也可以处理随机缺失数据。第五,可应用于纵向数据、重复测量数据和文献综述。纵向数据和重复测量数据可以测量结局变量随时间发展而产生的个体间和个体内的变异;文献综述是将各个文献作为组单位来研究,从而可以探讨造成各个研究结果异同的影响因素。

当然,多水平模型由于模型较复杂,模型参数多,不够简约等,故也有一定的局限性。

多水平分析技术对该类型数据在分析上提供了理论基础,随着专业软件的开发和推广,近年来多水平分析技术得到了广泛的应用。
比如SPSS软件中已经引人这一分析技术,这无疑从应用上大大推动了该方法的应用。
【用SPSS Mixed Model 定义多水平模型】
跟上课例子类似,数据位有一般嵌套结构特点的多层数据(学生嵌套于学校)
但这里没有交互的键实现,只能通过句法实现。
GET FILE='C:\XXXXX(文件名).SAV'.
MIXED MATHACH BY SECTOR WITH MEANSES CSES
##因变量为MATHACH,自变量为SECTOR , MEANSES CSES,分类自变量写在BY的后面,连续自变量写在WITH的后面##
METHOD = REML
##因变量为MATHACH,自变量为SECTOR , MEANSES CSES,分类自变量写在BY的后面,连续自变量写在WITH的后面##
PRINT = SOLUTION TESTCOV
##SOLUTION定义打印输出固定部分参数估计和检验结果,TESTCOV要求打印输出随机部分协方差矩阵的估计和检验结果##
FIXED = MEANSES SECTOR CSES MEANSES*CSES SECTORCSES [SSTYPE(3)]
##FIXED后面定义模型中的预测变量##
RANDOM = INTERCEPT CSES [SUBJECT(SCHOOL)] COVTYPE(UN).
##Random后的变量用来定义允许第二层有差异的随机变量,SUBJECT后的SCHOOL为更高的组变量, COVTYPE用来定义协方差矩阵的类型##

然而,作为通用统计分析软件的SPSS得到的结果和专业软件MLwin的结果有时会存在偏差
,究竟哪一种方法得到的结果更加可靠,以及在使SPSS在使用上有无局限呢?
暂时看来SPSS在应对不同处理条件(如固定/随机)所用的语句不同,给研究者造成一些不方便。
至于数据分析上,则得试试才知道,有研究采用Monte Carlo模拟方法对不同条件下两种软件参数估计的精确性进行了比较研究。
还有中国统计年会上施红英,温州医学院环境与公共卫生学院 的报告正是关于SAS、SPSS、MLwiN统计软件在数据层次结构判断中的应用。

Posted in Uncategorized | 1 Comment

【《统计软件应用》我爱你】

一般用R作图时往往是比较“严肃”的,但其实应用R还可以画出许多有趣的函数,比如在今天这个日子,应该向你爱的人大声说——。



另外介绍一些常用的R中画图的操作:
hist()画柱状图中
breaks设置每个柱的间距;freq柱图表示count或frequency;polt设置是否画图;density和angle可以设置柱上的斜线;axes设置是否需要画坐标轴; cor设置柱图的颜色;border设置柱图边界的颜色;xlim设置横轴范围;ylim设置纵轴范围。
layout()
mat用矩阵设置窗口的划分,矩阵的0元素表示该位置不画图。
此外,par()的mfcol,和mfrow参数也有类似layout的功能。
par():mar设置图离四个边缘的距离;bg设置背景颜色。
axis():las设置坐标轴标签的方式(水平,垂直……)。
mtext():为四个坐标轴添加标签。
text():在给定坐标的位置写字。
lines():lty设置线的类型;lwd设置线的宽度。
points():pch设置点的类型。
plot():最简单的画图函数。
boxplot()箱型图。
type设置画图的类型(type=”n”表示不画数据);axes设置是否画坐标轴。常用的参数还有:xlim和ylim,xaxt和yaxt。
barplot():space设置bar图间的间距;horiz设置bar的方向是垂直或水平;beside设置height为矩阵时,每列元素的bar排列方式;add设置是否将barplot加在当前已有的图上。
legend()添加图例。
最后pdf()可以保存图片。
下面就是一个简单的示范



Posted in Uncategorized | 1 Comment

【(转)大数据时代文章两篇】

“大数据”时代,什么是数据分析做不了的?
目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。

但有,些事情是“大数据”不擅长的,下面我会一一道来:

数据不懂社交。大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。

计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台充满魔力的机器,而去相信你办工作上的那台机器。

数据不懂背景。人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。

数据会制造出更大的“干草垛”。这一观点是由纳西姆•塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。

大数据无法解决大问题。如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。

数据偏爱潮流,忽视杰作。当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。

数据掩盖了价值观念。我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是,数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。

这篇文章并不是要批评大数据不是一种伟大的工具。只是,和任何一种工具一样,大数据有拿手强项,也有不擅长的领域。正如耶鲁大学的爱德华•图弗特教授(Edward Tufte)所说:“这个世界的有趣之处,远胜任何一门学科。”

我的想法:可以说在市场中,商业建立在信任之上。而信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。

大数据时代,我们还有隐私吗?
随着数字信息技术的不断发展,“网络匿名”有可能会变成“数学上不可能”的事。

1995年,欧盟出台的隐私法例将“个人资料”定义为可以直接或间接识别一个人的信息。很显然,当时立法者考虑的是那些带有身份标识号的文件资料之类的东西,这些标识号就好像人的姓名,而立法者们希望它们可以得到保护。

如今,“个人资料”这一定义所包含的内容已经远远超出当年那些立法官员的想象,甚至可以轻易地超过18年前他们通过这项法例时整个世界的数据量。

来看看到底发生了什么。首先,这个世界每年所创造的数据量在以指数形式增长,去年,这一数字则达到了2.8ZB(1ZB =10244GB),听起来就很可怕的数字,而且据知名信息行业咨询服务商IDC称,这一数字将在2015年翻一番。此外,这些数据中的3/4是由个体人在创造或移动数字文件时贡献的。举例来说,一个标准的美国上班族每年可以贡献180万MB的数据量,平均每天则有约5000MB,这其中包括下载的电影、文档、电邮以及这些数据通过移动或非移动互联网传播时所产生的附加数据量。

尽管这其中的大部分数据都是不可见的,似乎也并不携带任何个人信息,但事实并非如此。现代数据科学已经发现几乎任何类型的数据都能用来识别创造它的人,就好比指纹一样。比如说你在网上下载的电影、你的手机发出的定位信息,甚至是你被监控摄像机所拍下来的步态都可以用来识别你。实际上,数据越多,其中可以称得上隐私的就越少。普林斯顿大学的计算机科学家阿尔文德·纳拉亚南(Arvind Narayanan)称,只要有合理的商业动机来推动数据挖掘的进程,任何形式的隐私都是“算法上不可能”(algorithmically impossible)的。

可以说,我们已经在这条不归路上越走越远。那些以往被我们认为是个人资料的信息——姓名或者信用卡号——如今都已经被安客诚(Acxiom)公司这样的数据代理商用作交易,它拥有500多万名分布在世界各地的消费者的个人信息。人们在填写了某些调查表或者注册了一些服务后,相应的数据就进入了公共领域。这也是这些代理商的数据来源。

安客诚可以利用一些信息来推测你的生活方式、兴趣爱好和日常活动,比如你的汽车品牌和使用时间、你的收入和投资状况、你的年龄、受教育程度以及邮政编码。所有这些信息可以将你归类为70种不同的“PersonicX”集群中的一个。除此之外,你最近有离过婚吗,或者你刚刚变成了一名空巢老人?这些“人生大事”更可以将一个人从一个消费阶层转移到另一个,而这正是安客诚及其广告客户的关键兴趣所在。安客诚称其可以通过分析数据来预测3000种不同的行为及心理倾向,比如说一个人会在某两个品牌间做出怎样的选择。

虽说听起来很厉害,但这些数据代理商如今已经被认为是过时的了,尤其是跟Facebook这样的互联网公司相比。Facebook已经可以实现对个人信息收集的自动化与实时化,其首次公开募股时的财务档案显示,Facebook上每位用户的图片和视频资料数据量约为111MB,而Facebook的用户数如今已经超过了10亿,这可是整整100PB(1 PB = 10242 GB)的个人信息数据!在一些法律案件中,Facebook所记录的数据也派上了用场,其中包括涉案人发过的文字信息、点过“赞”的东西以及所用过的电脑的IP地址等,这些资料加起来足有800页,这800页就又给每位用户增加了几MB的数据量。

线上和线下的数据如今正在逐步融合,进而帮助营销人员更精准地进行广告投放,这也是众多“数字隐私”拥护者的烦心事。今年二月,Facebook宣布与包括安客诚在内的多家数据代理商展开合作,通过整合各自的数据资源来构造现实世界与虚拟网络之间的联系。一个月后,安客诚的首席科学官在一次投资者会议上称他们的数据已经与全美90%的社会档案建立了链接。

这些数据往往被描述为“在某种程度上具有匿名性”,但是牵涉到的信息越多,这样的说法就越显站不住脚。就拿移动通信运营商来说,他们会记录用户的位置和手机号码,然后再将这些综合数据卖给商家。尽管位置数据的匿名化是可以实现的,但是来自MIT的伊夫·亚历山大(Yves-Alexandre de Montjoye)和塞萨尔·A·伊达尔戈(César A. Hidalgo)却发现只要通过同一手机的四个不同的位置数据点就可以精确定位其拥有者。不光是移动通信运营商,你所用的浏览器也会“出卖”你的个人信息,就连最近刚刚兴起的可穿戴设备(如Google Glass)也被认为会引起隐私担忧。

毫无疑问,可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据,我们甚至可能发现有关于一个人的未来信息。去年,来自美国罗彻斯特大学的亚当·萨迪克(Adam Sadilek)和来自微软实验室的工程师约翰·克拉姆(John Krumm)发现他们可以大致预测一个人未来可能到达的位置,最多可以预测到80周后,其准确度高达80%。为此,他们收集了32000天里307个人和396辆车的GPS数据并建造了一个“大规模数据集”。

两人想象了一下这一研究成果的商业应用,他们说到时候会出现这样的广告:“需要理发吗?四天后你就会在这家发廊周围100米内,届时它将会有优惠活动哦!”

这两人还为他们的系统起了一个名字——“遥远未来”(Far Out),没错,这也正是大数据时代下的个人信息将带我们去的地方。

我的想法:在这篇文章之前我还看过一篇科普报道,当中说随着大数据时代的来临,终有一天当你走进商场时,计算机会自动分析出你的偏好,预测你当下的购物意愿。
人可以说被很大程度上“摸清”了,这会给你带来方便、给商家带来商机,但也让我们感到“赤裸”...
技术的应用还需要伦理的慎重衡量,目前,大数据时代“不为分析,为分享”应该是最好的。

Posted in Uncategorized | Leave a comment

【《统计软件应用》Project Analysis中的Decision Tree】

最近的一门财务原理课上,在讲到我们是否投资一个项目时要计算这个项目的NPV(净现值)。而一般采用DCF(折现现金流法)计算,但这个方法有个明显的缺点就是所谓的“一锤子打死”,而忽略了将来投资者可以对投资决策进行调整的能动性。

对DCF方法的改进就是通过Decision Tree(决策树)来计算Real Option(期权)
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

R中可以进行



【(转)高级版】
1.生成树:rpart()
函数raprt(formular,data,weight,subset,na.action=na.rpart,method,model=FALSE,x=FALSE,y=TRUE,parms,control,cost,...)
fomula :模型格式outcome~predictor1+predictor2+predictor3+ect。
data:数据。
na.action:缺失数据的处理办法,默认为删除因变量缺失的观测而保留自变量缺失的观测。
method:树的末端数据类型选择相应的变量分割方法。
连续性method=“anova”,离散型使用method=“class”,,计数型method=“poisson”,生存分析型method=“exp”。
parms:设置三个参数,先验概率,损失矩阵,分类矩阵的度量方法。 control:控制每个节点上的最小样本量,交叉验证的次数,复杂性参量:cp:complexity pamemeter。
2,剪枝使用
prune(tree,cp,....)
tree常是rpart()的结果对象,cp 复杂性参量

3 显示结果的语句printcp(fit)显示复杂性表plotcp(fit)画交叉验证结果图rsq.rpart(fit)R-squared 和 relative error for different splits (2 plots). labels are only appropriate for "anova" method.print(fit)打印结果summary(fit)基本信息plot(fit)画决策树text(fit)给树添加标签post(fit,file=)保存结果ps,pdf,等格式

也是应用Kyphosis进行演示:



另一个应用例子Regression Tree example
In this example we will predict car mileage from price, country, reliability, and car type. The data frame is cu.summary.




It turns out that this produces the same tree as the original.

Posted in Uncategorized | 1 Comment

【《统计软件应用》ES与power】

在一般统计分析中,一般我们只报告统计量F或t值,与p-value;实际上这些统计量对数据的描述只是描述了一小部分;传统的描述还应包括样本量,样本均数与标准差;但这些传统的描述量基本只是对单变量分布的描述,而对两组变量或处理效应的描述,则用effect size更加直观。它在平均数检验中表示的是两组样本分布的总体的非重叠程度;ES越大,重叠程度越小,效应明显;ES越小则相反。
效应大小:effect size(ES)是衡量处理效应大小的指标,与显著性检验不同,这些指标是不受样本容量影响的。它表示不同处理下的总体均值之间差异的大小,可以在不同研究之间进行比较。
常见的几种ES:
a) 两个平均数间的标准差异;
b) 分组自变量与个体因变量分数间的相关--相关效应大小。
c) 方差分析中处理效应的效应大小
一般规定ES(效应大小)
0.5 = large difference effect

1.均数比较
Calculate d and r using means and standard deviations
Calculate the value of Cohen's d and the effect-size correlation, rYl, using the means and standard deviations of two groups (treatment and control).
Cohen's d = M1 - M2 / spooled
where spooled = �[(s 1�+ s 2�) / 2]
rYl = d / �(d� + 4)
即独立样本:ES=(m1-m2)/spooled (spooled为联合方差。)

Calculate d and r using t values and df (separate groups t test)
Calculate the value of Cohen's d and the effect size correlation, rYl , using the t test value for a between subjects t test and the degrees of freedom.
Cohen's d = 2t / �(df)
rYl = �(t2 / (t2 + df))
即相关样本:ES=(M1-M2)/S;两组的任一方差即可,只需满足组间方差齐性即可。

http://www.uccs.edu/~lbecker/上有在线计算器

2.相关系数

3.方差分析(cohen'f):
单因素组间:ES=sqrt(F/n)
Eta^2=SSeffect/SStotal
多因素more factors:
partial Eta^2=SSeffect/(SSeffect+SSerror)

Posted in Uncategorized | 1 Comment