统计课笔记摘要(图片无法显示)

一:基本概念:R概率分布函数使用小结
记要
今天在计算分类模型自行区间时,用到了R中正太分布的qnorm函数,这里做简单记要,作为备忘。
R中自带了很多概率分布的函数,如正太分布,二次分布,卡放分布,t分布等,这些分布的函数都有一个共性,每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布,有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下:
d Density的缩写,表示密度函数。举个例子,标准正太分布x=0对应的值可以用dnorm(0)计算
p Probability的缩写,表示概率函数。举个例子,标准正太分布从负无穷大到0的概率,可以用pnorm(0)计算
q Quantile的缩写,表示分位函数。举个例子,如果知道标准正太分布从负无穷大到x的概率是0.9678,想要知道这个x的值,可以通过qnorm(0.9678)计算。
r Random的缩写,表示随机函数。用于随机生成符合正太分布的数值,举个例子,如果想随机生成10个符合标准正太分布的函数,可以用rnorm(10)来获得。
来源:

向量(Vector) 函数vector有两个参数:类型(mode)和长度(length),创建的向量中元素值取决于参数所指定的数据类型:数值型向量则元素值都为0,逻辑型都为FALSE,字符型都为""。以下三个函数有几乎相同的效果(创建一个向量)并且只有一个参数即长度:numeric(),logical(),和character()。

数据结构:向量是用于存储逻辑型,数值型或字符型的一维数组.用c()来赋值。a<-c(1,2,2,4);矩阵:二维数组,只是每个元素都拥有相同模式y<-matrix(1:20,nrow=5,ncol=4);数组:与矩阵类似,但维度可以大于2,array;数据框:可以包含不同模式的数据,mydata<-data.frame(col1.col2.col3,....)
数据的输入:4.1使用键盘输入mydata<-edit(mydata); 4.2 从带分隔符的文本文件中导入数据:grades<-read.table("studentgrades.csv",header=TRUE,sep=",",rownames="STUDENTID")从当前工作目录中读入了一个名为studentgrades.csv的逗号分隔文件,从文件的第一行取得了各变量名称,将变量STUDENTID指定为行标识符,最后将结果保存到了名为grades的数据 框中。 4.3导入EXCEL数据
图形参数的修改:par().pch制定绘制点时使用的符号。cex指定符号的大小,cex是一个数值,表示绘图符号相对于默认大小的缩放倍数。lty指定线条类型。lwd指定线条宽度。
创建新变量:sumx<-mydata$x1+mydata$x2; meanx<-(mydata$x1+mydata$x2)/2
缺失值 7.1判断缺失值y<-c(1,2,3,NA), is.na(y),c(FALSE,FALSE,FALSE,TRUE) 7.2在分析中排除缺失值 newdata<-na.omit(leadership)
abs(x)绝对值 sqrt(x) 平方根 ceiling(x) 不小于X的最小整数 floor(x) 不大于X的最大整数;y<-mean(x,trim=0.05,na.rm=TRUE)提供了截尾平均数,丢弃了最大5%和最小5%的数据和所有缺失值后的算数平均数。median(x)中位数, sd(x)标准差, var(x)方差,range(x)求值域,min(x)最小值,max(x)最大值。d密度函数,p分布函数,q分位数函数,r随机数。beta Beta分布,binom二项分布,chisq卡方分布,exp指数分布,multinom多项分布,norm正态分布,t t分布 ,unif 均匀分布。
设置随机数种子:set.seed(1,2,3,4)
e.g
条形图legend=rownames(counts)为图例提供了各条形的标签。
直方图 hist(x)
箱线图 boxplot(mtcars$mpg,main="Box plot",ylab="Miles per Gallon")
点图 dotchart(mtcars$mpg,labels=row.names(mtcars),cex=.7,main="Gas Mileage for Car Models",xlab=“Miles Per Gallon”)
summary()函数提供了最小值,最大值,四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。

P-P图和Q-Q图都是用来观察变量是否服从正太分布的。

选择菜单中的分析-描述统计-P-P图,则如下图
本帖隐藏的内容

1变量选项栏:选择绘制pp图的变量,可多选
2检验分布选项栏:用于检测待检验分布的类型,如beta,卡方,支付,伽马,半正太,logistic,对数正态,正太等,其下的df用于设置自由度
3分布参数选项:可由SPSS自动从数据中估计,也可以自定义
4转换选项栏:定义数据的转换处理方式
5比例估计公式:定义预期正态概率值的方法
6为结指定的秩,对多个不同的变量值的处理方式

QQ图和PP图的定义方式一样,二者的区别是pp图比较的是真实的数据和待检验分布的累计概率,而qq图比较的是真实数据和待检验分布的分位点数
分析-描述统计-QQ图,如下
本帖隐藏的内容

来源:

二 重要资源:

http://mooc.guokr.com/course/831/R-Programming/

R实战
不同版本的散点图矩阵 http://cos.name/2009/03/scatterplot-matrix-visualization/
三 上课重点内容
mahalanbis()
cbind
diagonal:对角线

scatterplotmatrix(....diagnoal('q'))
散点矩阵图可以用来展示多维数据中每两个维度之间的关系,多用于数值型数据