[C/C++] R语言与机器学习中的回归方法学习笔记

  n<-length(dataset)  
index1<-1:n  
index2<-rep(1:5,ceiling(n/5))[1:n]  
index2<-sample(index2,n)









1.ID3:Information Gain

2.C4.5:Gain Ratio

3.CART:Gini Index



rpart(formula, data, weights, subset,na.action = na.rpart, method,

     model = FALSE, x = FALSE, y = TRUE, parms, control, cost, ...)


fomula回归方程形式:例如 y~x1+x2+x3。

data数据:包含前面方程中变量的数据框(datafr ame)。






prune(tree, cp, ...)



cp复杂性参量,指定剪枝采用的阈值。cp全称为complexity parameter,指某个点的复杂度,对每一步拆分,模型的拟合优度必须提高的程度,用来节省剪枝浪费的不必要的时间,R内部是怎么计算的我不知道,希望读者能够补充。


  library(rpart.plot)  
reg<-rpart(y~.,w)  
rpart.plot(reg,type=2,faclen=T)





  w<-diabetes[,2:3]  
n<-length(w$y)  
index1<-1:n index2<-rep(1:5,ceiling(n/5))[1:n]  
index2<-sample(index2,n)  
NMSE<-rep(0,5) NMSE0<-NMSE  
for(i in 1:5){  
m<-index1[index2==i]  
reg<-rpart(y~.,w[-m,]) y0<-predict(reg,w[-m,])  
y1<-predict(reg,w[m,])  
NMSE0[i]<-mean((w$y[-m]-y0)^2)/mean((w$y[-m]-mean(w$y[-m]))^2)  
NMSE[i]<-mean((w$y[m]-y1)^2)/mean((w$y[m]-mean(w$y[m]))^2) }  
R中输出结果:
> NMSE
[1] 0.7892592 0.8857756 0.8619379 1.0072968 0.7238316
> NMSE0
[1] 0.3503767 0.3417909 0.3400387 0.3192845 0.3467186 border: 0px; list-style: none; word-wrap: normal; word-break: normal; line-height: 28px; box-sizing: border-box; color: rgb(51, 51, 51); font-family: 'Microsoft Yahei'; font-size: 16px; text-indent: 2em;">> NMSE0</p><p style="margin-bottom: 10px; border: 0px; list-style: none; word-wrap: normal; word-break: normal; line-height: 28px; box-sizing: border-box; color: rgb(51, 51, 51); font-family: 'Microsoft Yahei'; font-size: 16px; text-indent: 2em;">[1] 0.3503767 0.3417909 0.3400387 0.3192845 0.3467186</p>


> reg$cptable

           CP              n       split relerror    xerror       xstd

1  0.29154165      0 1.0000000 1.0040015 0.05033316

2  0.08785891      1 0.7084583 0.8040962 0.04896667

3  0.05660089      2 0.6205994 0.7227529 0.04657623

4  0.02169615      3 0.5639986 0.6424826 0.04302580

5  0.02093950      4 0.5423024 0.6591446 0.04376777

6  0.01723601      50.5213629 0.6749867 0.04578783

7  0.01678503      6 0.5041269 0.6841483 0.04554068

8  0.01349365      8 0.4705568 0.6845580 0.04429950

9  0.01166564      9 0.4570632 0.7370893 0.04829371

10 0.01089168     11 0.43373190.7452419 0.05041336

11 0.01070564     12 0.42284020.7417955 0.05054043

12 0.01042308     14 0.40142890.7399988 0.05088835

13 0.01003363     15 0.39100580.7566972 0.05143535

14 0.01000000     17 0.37093860.7650728 0.05110011


  reg2<-prune(reg,cp=0.025)  
rpart.plot(reg2,type=2,faclen=T)




[1] 0.5982049 0.6995054 0.6826815 0.8970573 0.6407927


[1] 0.5559462 0.5177565 0.4953384 0.5019682 0.5233709



          Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。他是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。他可以用来提高其他弱分类算法的识别率,也就是将其他的弱分类算法作为基分类算法放于Boosting 框架中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,用该样本子集去训练生成基分类器;每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数 n 后,就可产生 n 个基分类器,然后Boosting框架算法将这 n个基分类器进行加权融合,产生一个最后的结果分类器,在这 n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率。



mboost(formula, data = list(),

      baselearner = c("bbs", "bols", "btree", "bss", "bns"), ...)


btree(..., tree_controls = ctree_control(stump = TRUE,

                                        mincriterion = 0,

                                        savesplitstats = FALSE))


  library(mboost)  
reg<-mboost(y~btree(x2.ltg)+btree(x2.bmi)+btree(x2.bmi.ltg),  
data=w,control=boost_control(nu=0.1))






bagging(formula, data, subset, na.action=na.rpart, ...)






  library(ipred)  
reg<-bagging(y~.,data=w,coob=TRUE,control=rpart.control(cp=0.025))


Baggingregression trees with 25 bootstrap replications

Call:bagging.data.fr ame(formula = y ~ ., data = w, coob = TRUE, control =rpart.control(cp = 0.025))

Out-of-bagestimate of root mean squared error: 58.3648





randomForest(formula, data=NULL, ..., subset, na.action=na.fail)


  library(randomForest)  
reg<-randomForest(y~.,data=w,importance=TRUE)  
reg$importance


                %IncMSE IncNodePurity

x.glu        68.8034199     42207.351

x2.age       22.6784331     18569.370

x2.sex        6.2735713      2808.346

x2.bmi     1379.0675134    371372.494

x2.map      331.3925059    113411.547

x2.tc        18.6080948     14990.179

x2.ldl       24.3690847     17457.214

x2.hdl      216.2741620     64627.209

x2.tch      419.0451857     93688.855

x2.ltg     1514.0912885    379235.430

x2.glu       81.7568020     51984.121

x2.age.2      1.5242836     19364.582

x2.bmi.2     75.6345112     53635.024

x2.map.2      5.9156799     23049.475

x2.tc.2       1.6792683     15631.426







  library(lars)  
library(pls)  
NMSE<-rep(0,5)  
NMSE0<-NMSE  
for(i in 1:5){  
m<-index1[index2==i]  
reg.pls <- plsr(y ~ x2, 64, data = diabetes[-m,], validation ="CV")  
y0<-predict(reg.pls,diabetes[-m,])  
y1<-predict(reg.pls,diabetes[m,])  
NMSE0[i]<-mean((diabetes$y[-m]-y0)^2)/mean((diabetes$y[-m]-mean(diabetes$y[-m]))^2)  
NMSE[i]<-mean((diabetes$y[m]-y1)^2)/mean((diabetes$y[m]-mean(diabetes$y[m]))^2)  
}



