博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【sjj】[论文笔记]云计算下SPRINT并行算法研究
阅读量:6817 次
发布时间:2019-06-26

本文共 917 字,大约阅读时间需要 3 分钟。

《云计算下SPRINT并行算法研究》张春艳《软件》201第31卷 第11期

论文的主要内容是:在云计算的Hadoop集群框架和数据挖掘技术中的 SPRINT 分类算法的基础上。详细描述SPRINT并行算法在 Hadoop中的MapReduce编程模型上的执行流程。并利用分折出的决策树模型 对输入数据进行分类。

名词:map-reduce,map就是将一个任务分解成为多个任务。reduce就是将分解后多任务处理的结果汇总起来。得出最后的分析结果。

主要的数学公式:

1、分裂指数是属性分裂规则优劣程度的一个度量,Gini指数方法能够有效地搜索最佳分裂点。提供最小Gini指数的分割具有最大信息增益。被选为最佳分割。在 SPRINT算法中采用了 Gini指数方法 ,这对于生成一棵好的决策树至关重要。

 (1)如果集合 T包含 n个类别 的 m条记录,则其

Gini指 数为 :

                    n

 Gini(T)=1- Σ Pj2

                   j=1

其中P 为类 J出现的频率。

根据以上方法。得到所有属性的候选最佳分裂点。选择具有最小 Gini值 的侯选最佳分裂点 。即为最终的最佳分裂点。相应属性为当前分裂属性。

(2)“信息增益”(Information Gain)来衡量一个属性区分以上数据样本的能力。信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁。

样本的熵:Entropy(S) =-(p+)*log(p+)-(p-)*log(p-)

其中,p+、p-分别为正例和负例占总记录的比例。

属性A的信息增益:Gain(A)=Entropy(S)-( p1)*Entropy(A1)-( p2)*Entropy(A2)

p1,p2分别是属性A取值A1,A2占得比例。

根据以上方法,得到所有属性的信息增益,根据信息增益最大化的原则选择信息增益最大的属性作为根节点。

疑问:

(1)reduce操作 。对于连续属性要对属性值进行从小到大排序。排序同时生成直方图,初始阶段为 0,这里指什么为0?为什么要排序?

转载于:https://www.cnblogs.com/papers/archive/2011/11/05/2237114.html

你可能感兴趣的文章
主机屋好用
查看>>
tomcat环境变量的配置
查看>>
如何安装FastDFS
查看>>
WinXp怎么开机进入Dos
查看>>
基于LoadRunner的web测试
查看>>
shell脚本控制流程
查看>>
bbs与BLOG与SNS在区别
查看>>
H3CNE 大综合实验 覆盖所有的NE课程
查看>>
统计文件行数
查看>>
ubutu使用apt-get 安装报:Err http://security.ubuntu.com precise-security InRelease 等
查看>>
Leetcode#19Remove Nth Node From End of List
查看>>
什么是软件测试
查看>>
数据库中nchar,nvarchar,char,varchar的区别
查看>>
利用php soap实现web service (二)
查看>>
浅谈PHP弱类型安全
查看>>
linux下tomcat开机自启动
查看>>
使用go语言的list实现一个简单的LRU缓存
查看>>
rdma centos 7.3安装
查看>>
CloudStack中注册vsphere模版提示Connection Refused的解决方法
查看>>
我的友情链接
查看>>