决策树ID3算法 决策树id3算法实现

昭棠笔记 2023-01-26

谢谢你们爱我的每个人-佳亚

2022年5月1日发

(作者:女生版)

2012年8月 

计算机工程与设计 

COMPUTER ENGINEERING AND DESIGN 第33卷第8期 

Aug.2012 

Vo1.33 NO.8 

决策树ID3算法的分析与优化 

黄宇达 新站长。,范太华 

(1.西南科技大学计算机科学与技术学院,四川绵阳621010; 

2.周口职业技术学院信息工程系遂宁网,河南周口466000) 

摘要:对ID3算法的基本原理及其主要不足以及现有几种改进算法的优缺点进行了简要分析新闻类软文,针对ID3算法的主要不足 

即倾向于多值属性的选取,利用粗糙集理论和数学相关知识点对其进行了一定程度的改进百度站长平台。理论分析和实验结果表明渭南网站建设,改 

进后的算法在一定程度上不仅较好地解决了ID3算法的多值偏向问题而且大大简化了算法的计算过程删负面,明显提高了算法分 

类准确度和执行效率沧州seo。 

关键词:决策树;ID3算法;信息熵;粗糙集;客观属性重要度 

中图法分类号:TP301 文献标识号:A 文章编号:1000—7024(2012)08—3089~05 

ID3 algorithm for decision tree analysis and optimization 

HUANG Yu—da 一。FAN Tai—hua 

(1.College of Computer Science and Technology佛山 网络推广,Southwest University of Science and Technology,Mianyang 621010,China; 

2.Department of Information and Engineering,Zhoukou Vocational and Technical College,Zhoukou 466000seo关键字,China) 

Abstract:First,ID3 algorithm’S basic principles and major shortcomings,and advantages and disadvantages of several existing 

improved algorithms are simply analyzed by this paper.Then for ID3 algorithm the main drawback that tends to select the 

attribute which has more values搜索引擎排名优化,which has been significantly improved by using the rough set theory and mathematical know- 

ledge points.Theoretical analysis and experimental results show that the improved algorithm打开网页的速度慢,tO a certain extent,not only can 

well solve the multi-valued bias problem Of ID3 algorithm and greatly simplify the computational process竞价技巧,obviously improve the 

algorithm’S classification accuracy and implementation efficiency. 

Key words:decision tree;ID3 algoritm;ihnformation entropy;rough set;objective attribute importance 

0引 言 

近年来,数据挖掘作为一种能发现海量数据中潜在有 

用信息的数据分析方法和技术,已在银行、证券、房地产、 

教育等行业领域得到了广泛应用,为人们获取有价值的信 

息提供了强有力手段。 

分类是数据挖掘技术中最常用的方法之一百度爬虫,而决策树 

年提出,其后很多专家学者对其进行了深入的研究_1。 。 

本文从改进和简化的角度对ID3算法进行了一定程度 

的优化,采用粗糙集理论相关知识,用客观属性重要度参 

数来取代全靠用户经验而确定的主观用户兴趣度参数宁波网络推广,一 

定程度上有效弥补了ID3算法的更大不足并使改进后的算 

法能较好地适用于较大规模的数据集上海互联网推广公司。 

分类以其速度快、精度高、直观易懂和生成模式简单等诸 

多优点而倍受青睐,已在数据挖掘领域中有着不可替代的 

作用和地位seo领导屋。决策树算法作为数据挖掘中一种简单、实用 

而有效的快速分类算法,其本质上是一种以实例为基础的 

归纳学习,它主要着眼于如何从一组无次序、无规则的事 

1 11)3算法分析 

ID3算法是一个贪心算法,其核心思想是:利用信息 

论知识,将决策树中每个节点所对应的分裂属性的选取标 

准用信息增益值来度量刷淘宝指数,这样可使得对结果划分中的样本 

在进行分类时所需的信息量最少并反映出划分的“不纯性” 

或最小随机性¨3],这样在测试决策树中任何一个非叶节点 例中推理出以决策树表示的分类规则_】 ]丹阳网站建设。ID3算法作为最 

具影响力的一种决策树构造算法是由QuinLan J R于1986 

收稿日期:2011—09—15;修订日期:2011—11—26 

基金项目:河南省教育厅自然科学研究计划基金项目(2千度快手。08B52OO47) 

时都能获取被测实例对应的更大类别信息,分裂属性在将 

作者简介:黄宇达(1975一)蚌埠seo,男汕头网站优化,河南周口人,硕士研究生,讲师,研究方向为数据挖掘、信息安全与分布式系统等;范太华(1962一)百度蹊径, 

男诺亚大陆倒闭,四川绵阳人,副教授西宁做网站,研究生导师六安seo,研究方向为数据挖掘与知识工程、分布式系统、嵌人式技术等E-mail:872212653@qq.corn 

・3090・ 计算机工程与设计 2o12正 

实例集划分为若干个子集后快速网站优化哪家好,可使系统对应的熵值达到最 

小品牌推广案例,从而使得期望该非叶节点到达各后代叶节点所对应的 

平均路径最短l4J,划分之后的若干个子集中类别相同程度 

变为更高,这样不仅大大降低了决策树的平均深度怎么关键词排名优化,而且 

也明显提高了分类准确度和速度seo资料站。 

设S为一个具有S个样本的数据集,C代表分类属性, 

C (i一1,2,…,m)表示第i种类别,再设S 表示分裂 

子集Sj中所有分类类别为 的样本集,其中 中的样本 

数用S 表示廊坊网站优化,则样本集s被属性A划分时所对应的信息熵 

m 

为:ln]b(s)一Info(s1文案怎么写,S2,…旺道网络营销软件, )一一 Pilogp , 

i一1 

其中 —s/s百度指数酷风。 

设属性A在将S划分成k个不同子集S 搜索引擎优化工具,S2seo公司上海,…,Sk 

时所对应的属性取值分别为a ,az医院营销策划方案,…,a 网站仿制,其中Si表示 

S中所有满足属性A取值为a 条件的数据样本百度收录入口, 表示子 

集s『中所有满足类别属性值为G条件的数据样本集合, 

中样本数用sii表示,由此可得,通过属性A对样本集S划 

分时所对应的信息熵为 

E(A)一∑ lnJb(S S2 ,…淮南seo, ) 

一一∑∑ 生 P logp u (… 1) 

J=1 i一1 

其中淘宝客推广教程,Pii—Sdreamweaver8 序列号。 /s,表示在子集S中的任一个样本类别 

等于C 的概率,(s ,+s +…+s )/s为子集Sj的权网站栏目名称。显 

然seo优化诊断,熵值越小苏州百度推广,子集划分的纯度就越高。 

从而可得出属性A在样本集合S中为分类提供的信息 

量,即信息增益为 

Gain(A)一Info(S)~E(A) (2) 

研究表明:利用式(2)选取测试属性存在一个弊端: 

由于加权和使得实例集分类倾向于抛弃小数据量的数据元 

组襄阳seo,从而造成明显多值偏向问题长沙网站制作价格,即ID3算法在对测试属 

性进行选取时明显倾向于有较多取值的属性上海企业推广,然而这些属 

性在一些情况下并不一定是更优属性[5]安徽网站推广。属性取值数量与 

属性是否重要之间并无必然联系百度指数查询工具,这就使得利用ID3算法 

分类时有可能会归纳出不正确的知识口]兴安网。比如在股票市场, 

利用ID3算法分析会忽略个股的重要性,而个股分析往往 

需要对某些少量的元素组引起足够重视;又如在分析大学 

生成绩影响因素时,“学生年龄”往往被传统ID3算法判定 

为测试属性,但老师认为在实际教学中该属性并非那 

么重要;再如在对学生迟到因素进行分析时,学号属性对 

于在校生而言是的,该属性有大量取值nofollow,因此其被选 

取为决策树根节点或非常接近根节点的可能性更大关键词扩展工具,因为 

通过该属性可完全预测各样本分类属性值,然而该属性在 

学生迟到影响因素分析中没有任何作用龙岩做网站,然而数值相对较 

少的一些诸如老师原因、个人原因等属性在分析中很可能 

反而会发挥更大作用马鞍山网站建设。 

针对ID3算法上述更大不足,很多学者已对其展开了 

进一步研究番禺网站公司。比如媒介策略,文献[6]在求信息熵值时引入用户兴 

趣度,但需要用户具有一定专业知识背景且要大量反复试 

验,虽然一定程度上克服了ID3算法的多值倾向缺陷淘宝指数,但 

由于受用户主观意识影响草根站长,往往较难反应客观现实网络营销策划的步骤,尤其 

对一些不熟悉的用户;文献[7]创新性地利用泰勒公式和 

麦克劳林公式来简化信息熵的运算,提高了算法效率,但 

并没有考虑到简化带来的误差;文献[8]提出关联度函数 

的概念,虽然在一定程度上也能克服多值倾向的不足又名荆州站长网,但 

在计算时完全忽略了信息熵而导致不能与ID3算法的分类 

准确率相媲美;文献[9]采用灰关联度取代用户兴趣 

度,但在实际应用中对于灰度较低和取值较多往往较难界 

定范围。 

2算法改进及其简化 

2.1粗糙集理论的相关概念 

设信息表S一(u西安百度推广,A广水网,V怎样处理公关危机,F)重庆产品推广,其中U为论域白城网,A为 

属性集合,V为属性的值域,F为U×A—V的映射优化训练。若 

A=CUD快照优化,CnD一西韩城网,C是条件属性集网络广告销售,D是决策属性集。 

定义1令P A,当ind(P)一{(x网站营运,y)∈U×U I 

VaEP,f(x哈尔滨网站开发需要多少钱,a)一f(y长沙seo,a))且(x网站seo优化培训,y)∈ind(P)时, 

则称X和y是P不可区分的外贸推广。 

定义2对于每个子集X U及一个等价关系RE ind 

(P),则X的R下近似为RX—U{Y∈U/R l Y x}扬中网站建设。 

定义3设Pseo排名优化课程,Q为U上的两个等价关系簇,Q的P 

正域POSP(Q),定义为P0SP(Q)一U PX网络广告方式。另外,称 

Q以程度k依赖于P,即依赖度k= (Q)一f P0SP 

(Q)1/1 U l常德网站建设。 

定义4属性依赖度¨] 淮南seo。设A为属性集301重定向,C、D A, 

分别表示条件属性和决策属性网络营销品牌。令k一7c(D)一l P0 

(D){/I U l,称k为依赖度,D以k(O≤k≤1)度依赖 

于C超级外链,并记为C=>Dk,若k一1,则D完全依赖于C,若k< 

1,则部分依赖于C。系数k描述了利用属性C可将论域U 

中元素正确分类到划分U/D的块中的比率外国搜索引擎,反映出属性集 

C对于决策属性D的重要程度。 

定义5设属性a∈C湘潭网,令 ∞(a)一7c(D)~7c—Ia) 

(D),则2cD(a)表示属性a关于D的重要性网站优化软件,即表明把属 

性a从C中删去后对分类决策影响的重要度,进一步说seo优化诊断, 

就是不能被正确分类的样本所占的比例。 

2.2算法的改进 

根据定义5和上面的式(1)、式(2)以及选取信息增 

益更大的属性作为测试属性的特点如何推广,可得到改进后的公式 

Gain (A)一Info(s)一[1一 cD(A)]E(A) 

:Inf0(S)+[1一 cD(A)] 

∑∑ ±垫±::!± logpo (3) 

J一1 t=1 

第33卷第8期 黄宇达归元寺网站,范太华:决策树ID3算法的分析与优化 

1 1 对于式(3)天津搜索引擎优化,通过新的属性重要度参数的加入,使决 

策树在学习过程中有效地避免了多值但并非更优属性的偏 

向表现汉中建网站,凸显了样本更优属性的浮出几率l1 ,从而在一定 

程度上较好地克服了ID3算法更大缺点,即多值偏向导致 

易出现选取出与现实无关的属性或大数据量掩盖小数据量 

的错误。 

2.3算法的简化 

即当m—n+1时如何删除百度快照,厂(∑ )[ )≥∑丸f(z )仍成立, 

一1 i一1 

结论得证昆明网页制作。 

对于logp 四川网站建设,由于P ∈E0,1]兰州网站设计,故由性质1可得 

logp 在E0baiidu,1]上为凸函数;又由于 ∑( logp )≤ 

log(∑ ),所以可再由性质2得出 ∑( logp站优云。)≤ 

i一1 在式(3)中,由于类别数m始终为一定值且对于决策 

树中任一具体分支对应的样本集s’而言搜索网站有哪些,在进行测试属 log(∑ )成立。因此利用该不等式并结合式(4)可得到 

性选取过程中百度推广后台登陆,Info(S )也始终为一定值网络营销的概念,所以为提高计 

算效率,结合式(1)网络营销优势,可对式(3)作进一步修改且并不影 

响最终结果 

E (A)一l 1 套 吐 Pologp 

(4) 

下面根据式(4)的特点,利用数学中凸函数所具有的 

相关性质再对该公式的计算作进一步简化seo培训公司。 

定理1设厂为区间j上的二阶可导函数商洛网站建设,则在j上厂 

为凸(凹)函数的充要条件是f”(x)≥O(庄河网,”(x)≤O)google pr值, 

xE 。 

性质1 log函数在[O广州seo,1]上是凸函数。 

证明:显然百度快照劫持,对于[Ogoogle账号,1]上任意两点x1死链检测,X2www 12580 com,满足 

当x1一)(2一△x—a(O)时,函数logx在[O竞价点击软件,1]上连续, 

1 —1 又由于(1ogx)’一 且(1ogx)”一 <0免费seo诊断,故有 

定理1可以得出结论:函数logx在[O,1]是凸函数相关关键词。 

性质2设f(x)为凸函数且X为非空集合用户画像,Xi∈X免费友情链接网, 

若 Xi ̄>0,且∑ 一1兔子优化大师,则∑ _厂(z )≤fl∑ l。 

i一1 i一1 i一1 

证明:用数学归纳法证明:当m一2时,由凸函数的定 

义而知百度网站优化软件,结论显然成立浙江网站建设。 

假设当m—n(n>2)时结论成立海外推广,即_厂( z)≥ 

∑ _厂‘ )关键词排名 推送者,则当m ̄n+l时seo优化网络推广,有 

计 厂(∑九 )一厂I

f 

∑丸 

∑ 1 

∑ 

+ 升 I

 f

≥ fJ 

∑ l 

下面公式 

(A)一E1一 CD(A)]∑ 呈上_丰 l。g(∑ ) 

:l ;i 

(5) 

这样在式(5)中seo关键词首页排名,对于属性A的每个分裂子集信息量 

的计算即对于公式中每个具体j值,只需对log函数求一次 

值即可得出该子集的近似信息量,然而ID3算法则需要对 

log函数求m次值,所以大大提高了计算效率。 

这里天津百度公司,由于∑s —sj成立并且 

(詈) 一 号 

[( s ) 一 ( ] 

i :l£曼一常熟百度推广,1 (f≠l\ 詈 )J J/ 

一1一∑∑( P。) 

所以有等式logf∑埔)一l

、i=1 

ogf1一∑∑PoP )

、 i一1 t 1.£≠i 

ln(1一∑∑PoP网站访问。1 

i 1 t 1 ≠ 成立。另外,由于对任一个确定的 

j值域名与空间,有一∑∑Po

…1t 1可以发表文章的网站,£≠ 

P。一统计分析工具。成立百渡网,故可利用数学中等阶无 

穷小变换,有 

Inf1一∑∑Po

、 i一1 t=1google账号,£≠ 

P莱芜网站优化。)一∑∑Po

i=1 t一1搜狗与360,£≠ 

P 

1n2 ln2 

去掉常数项ln2后郑州网络营销公司,式(5)变为 

(A)…E1 (A)]∑虹蔓 } 

i一1 

∑∑夕

i=1 r一1四川网络推广, 

± ±:::± 

S 

[ ∞(A)一1]∑∑PoP。 

1 t 1 ≠i 

(6) 

当然自动推广软件,上面简化过程难免会引起一定程度的误差seo公司上海。经 

多次试验证明文山网,将式(6)乘以属性的特征值个数n,可有 

・3092・ 计算机工程与设计 

对比如图1所示企划行业交流平台。 

表1算法试验结果 

2012拄 

效弥补由式(4)到式(6)简化过程所带来的误差。 

(A)一 ∑ 土 蔓 S (A) 11∑∑PoP。 

i=1 —i.f≠ 

(7) 

分析式(7)不难发现如何做网络推广挣钱,已经彻底消除了比较耗时的对 

数运算相关搜索,大大提高了算法执行效率,加快了决策树构建速 

度。对于每个属性和县网,可分别利用式(7)求值,最后选取最 

大值对应的属性作为测试属性即节点属性岳阳seo。 

2.4改进算法步骤描述 

改进后的算法执行步骤具体描述如下: 

输入:训练样本Samples排名点击软件,样本中各个属性值均为离散 

的seo手段,另外假设候选属性集合为attirbute—List以及Generate— 

DecisionTree为所给定的训练集对应的决策树。 

输出:一棵决策树。 

(1)创建一个节点N; 

(2)如果Samples都为同一个类别Calexa排,则将节点N作 

为树中一个叶节点杭州seo论坛,同时将其类别标识为C; 

( if attribute

—List为空seo蜘蛛精,then; 

(4)返回N并将其作为叶节点,同时将其类别标记为 

Samples中出现次数最多的类别; 

(5)按照本文所给式(7)分别计算at

∽ 

tribute—Li

¨ 

st中 

各个属性所对应的值山西建站,然后选取更大值对应属性为测试属 

性即test—attribute并将树中所创建的节点N标记为test— 

attribute; 

(6)for each test

—attribute所对应的每一个属性值a 百度统计, 

将其用于划分Samples; 

(7)对于由节点N所长出的一个满足条件test—attri- 

bute=a网络广告类型。的树的分支; 

(8)假设Si为Samples中满足条件test—attribute=ai 

所对应的样本集; 

(9)如果Sj为空,then; 

(1O)为树新加一个树叶营销推广公司,同时将其类别标记为Sam- 

ples中出现次数最多的类别; 

(11)else在树中增加一个由Generate—DecisionTree 

(S,attribute—List--test

—attribute)所返回的新节点; 

显然内链优化,上述决策树的构建过程为一个递归过程,过程 

终止条件为步骤(2)、步骤(3)及步骤(9)常德seo。 

3试验及分析 

采用UCI机器学习数据库中若干标准数据集进行试验 

分析竞价排名。其中,对于每个数据集网络推广论坛,每次试验都从中随机选取 

1/4样例作为训练集阿拉丁推广,其余全部作为测试集。对于数据集 

中数值型属性都采用文献[13]中的方法进行离散化竞价推广。每 

个数据集都先后进行10次试验,在相同的软硬件环境下, 

试验结果见表1。 

实验结果中两种算法在不同数据集上平均分类准确率 

图1 改进前后两种算法分类准确率对比 

在表1和图1中排名优化,C1表示ID3算法平均分类准确率, 

c2表示改进算法平均分类准确率迈步者,c3表示两种算法平均 

执行时间比(改进算法在前)泰安网。 

从试验结果可以直观发现:针对不同规模的数据集深圳网络营销, 

改进算法与传统ID3算法相比,前者不仅在平均分类准确 

率而且在算法执行时间上都明显优于后者如何注销域名备案,改进后的算法 

能得出更为合理的决策树什么是互动营销,从而能更好地指导对新数据的 

分类和预测沈阳百度。 

4结束语 

本文首先针对传统ID3算法更大的不足即属性的多值 

偏向问题,通过利用粗糙集理论相关知识点即使用客观属 

性重要度作为参数网站安全测试,在一定程度上克服了1133算法的这个 

主要缺陷反向链接,然后利用数学相关知识点对属性信息增益值的 

计算过程作以简化,明显提高了算法执行效率。实验结果 

表明:新算法与ID3算法相比无论在分类准确度还是分类 

速度方面都是相对优越的并具有较好的分类效果。 

参考文献: 

E13 Jl Xi yu推广的软文,HAN Qiu-ming,LI Wei龙岩网站,et a1.Data mining tech— 

nology application examples EM3.Beijing:Mechanical Indus— 

try Press安卓系统优化,2009(in Chinese).[纪希禹镇江百度优化,韩秋明,李微baidu1,等. 

数据挖掘技术应用实例[M3.北京:机械工业出版 

社站优云,2009.] 

E23 CHEN An,CHEN Ning,ZHOU Long-xiang旅游网站建设,et a1.Data 

mining technologies and applications[M 3.Beijing:Science 

o 

第33卷第8期 黄宇达,范太华:决策树ID3算法的分析与优化 ・3093・ 

Press营销知识,2006(in Chinese).[陈安上海企业推广,陈宁百度搜索大数据,周龙骧怎么学网络推广,等.数据 

挖掘技术及应用[M].北京:科学出版社,2006.] 

-I3]WEI Zhen-gang网站怎么防攻击,ZHOU Xiang.One improved algorithm based 

on ID3 algorithm[J].Computer Science,2010,37(7A): 

¨一12(in Chinese).[魏振钢鹤岗网,周翔.ID3算法的一种改进算 

法EJ].计算机科学,2010,37(7A):11—12.] 

[4]SUN Ai-dong黑客seo,ZHU Mei jie企业危机公关,TU Shu qin.Improved ID3 al— 

gorithm based on attribute values[J].Computer Engineering 

and Design又名丹江口站长网,2008,29(12):3011-3012(in Chinese).[孙爱 

东温州seo,朱梅阶杭州百度推广公司,涂淑琴.基于属性值的ID3算法改进_J].计算 

机工程与设计,2008,29(12):3011 3012.] 

[5]ZI-LANG Lin,CHEN Yah河北网站优化,LI Tao—y|ng,et a1.Decision tree clas— 

sification algorithm research[J].Computer Engineering百度大师,2011百度指数介绍, 

37(13):66~67(in CNne ̄).[张琳seo 是什么,陈燕,李桃迎,等.决策 

树分类算法研究[J].计算机工程3hhhh com,2011,37(13):66—67.] 

[6]WANG Miao网站销售,CHAI Rui—min.An improved decision tree clas— 

sification attribute selection method[J].Computer Enginee- 

ring and Applications百度搜索量,2010网站策划方案,46(8):127 129(in Chinese). 

[王苗深圳百度电话,柴瑞敏.一种改进的决策树分类属性选取方法[J]. 

计算机工程与应用,2010电子商务网站推广,46(8):127—129.] 

L7]HUANG Ai~hui安康百度推广,CHEN Xiang-tao.The improvement of ID3 

decision tree algorithm[J].Computer Engineering and 

Science网络营销品牌,2009新闻营销的优势,31(6):109—111(in Chinese).[黄爱辉ugc用户,陈 

湘涛.决策树ID3算法的改进[J].计算机工程与科学seo博客, 

2009刷快照,31(6):109—111_] 

[8]HAN Song-lai企业网站推广方案,ZHANG Hui,ZHOU Hua-ping.Decision tree 

classification algorithm based on correlation degree function 

lJ].Computer Applications俄罗斯推广,2005百度收录口,25(11):2655 2657(in 

Chinese).[韩松来,张辉医疗软文,周华平.基于关联度函数的决策 

树分类算法口].计算机应用游戏优化,2005,25(11):2655 2657.] 

[9]YE Ming-quanseo优化操作,HU Xue-gang.One improved decision tree al— 

gorithm based on grey relation degree口].Computer Enginee- 

ring and Applications,2007百度指数怎么看,43(32):171—173(in Chinese)潜江网站建设, 

[叶明权上海营销公司,胡学钢.一种基于灰关联度的决策树改进算法 

_J].计算机工程与应用,2007,43(32):171 173.] 

[1o]WANG Lu郑州网站设计,QIU Tao-rong,HE Niu网奇seo培训,et a1.Feature selec— 

tion method based on rough set and ant colony optimization al— 

gorithm EJ].Nanjing University Journal(Natural Science)url地址, 

2010,46(5):487—493(in Chinese).[王璐兰州建网站,邱桃荣邢台网站优化,何 

妞seo人,等.基于粗糙集和蚁优化算法的特征选择方法EJ]. 

南京大学学报(自然科学版)深圳seo推广公司,2010,46(5):487—493.] 

[11]TAO Rong什么是网站建设,ZHANG Yong—sheng,DU Hong bao.Improved 

ID3 algorithm based on rough set theory in attribute depen- 

dence口].Henan Science and Technology University Journal 

(Natural Science),2010网络营销策划公司,31(1):42—45(in Chinese).[陶 

荣网络营销推广的具体方法,张永胜百度指数,杜宏保.基于粗集论中属性依赖度的ID3改进 

算法[J].河南科技大学学报(自然科学版)大连网络营销,2010,31 

(1):42—45.] 

[12]SUN Huai—ning河北网站制作,HU Xue-gang.One decision tree learning al— 

gorith