决策树ID3算法决策树id3算法实现

昭棠笔记 2023-01-26

谢谢你们爱我的每个人-佳亚

2022年5月1日发

(作者：女生版)

２０１２年８月　

计算机工程与设计　

ＣＯＭＰＵＴＥＲ　ＥＮＧＩＮＥＥＲＩＮＧ　ＡＮＤ　ＤＥＳＩＧＮ　第３３卷第８期　

Ａｕｇ．２０１２　

Ｖｏ１．３３　ＮＯ．８　

决策树ＩＤ３算法的分析与优化　

黄宇达　新站长。，范太华　

（１．西南科技大学计算机科学与技术学院，四川绵阳６２１０１０；　

２．周口职业技术学院信息工程系遂宁网，河南周口４６６０００）　

摘要：对ＩＤ３算法的基本原理及其主要不足以及现有几种改进算法的优缺点进行了简要分析新闻类软文，针对ＩＤ３算法的主要不足　

即倾向于多值属性的选取，利用粗糙集理论和数学相关知识点对其进行了一定程度的改进百度站长平台。理论分析和实验结果表明渭南网站建设，改　

进后的算法在一定程度上不仅较好地解决了ＩＤ３算法的多值偏向问题而且大大简化了算法的计算过程删负面，明显提高了算法分　

类准确度和执行效率沧州seo。　

关键词：决策树；ＩＤ３算法；信息熵；粗糙集；客观属性重要度　

中图法分类号：ＴＰ３０１　文献标识号：Ａ　文章编号：１０００—７０２４（２０１２）０８—３０８９～０５　

ＩＤ３　ａｌｇｏｒｉｔｈｍ　ｆｏｒ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ａｎａｌｙｓｉｓ　ａｎｄ　ｏｐｔｉｍｉｚａｔｉｏｎ　

ＨＵＡＮＧ　Ｙｕ—ｄａ　一。ＦＡＮ　Ｔａｉ—ｈｕａ　

（１．Ｃｏｌｌｅｇｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ佛山网络推广，Ｓｏｕｔｈｗｅｓｔ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｍｉａｎｙａｎｇ　６２１０１０，Ｃｈｉｎａ；　

２．Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｚｈｏｕｋｏｕ　Ｖｏｃａｔｉｏｎａｌ　ａｎｄ　Ｔｅｃｈｎｉｃａｌ　Ｃｏｌｌｅｇｅ，Ｚｈｏｕｋｏｕ　４６６０００seo关键字，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｆｉｒｓｔ，ＩＤ３　ａｌｇｏｒｉｔｈｍ’Ｓ　ｂａｓｉｃ　ｐｒｉｎｃｉｐｌｅｓ　ａｎｄ　ｍａｊｏｒ　ｓｈｏｒｔｃｏｍｉｎｇｓ，ａｎｄ　ａｄｖａｎｔａｇｅｓ　ａｎｄ　ｄｉｓａｄｖａｎｔａｇｅｓ　ｏｆ　ｓｅｖｅｒａｌ　ｅｘｉｓｔｉｎｇ　

ｉｍｐｒｏｖｅｄ　ａｌｇｏｒｉｔｈｍｓ　ａｒｅ　ｓｉｍｐｌｙ　ａｎａｌｙｚｅｄ　ｂｙ　ｔｈｉｓ　ｐａｐｅｒ．Ｔｈｅｎ　ｆｏｒ　ＩＤ３　ａｌｇｏｒｉｔｈｍ　ｔｈｅ　ｍａｉｎ　ｄｒａｗｂａｃｋ　ｔｈａｔ　ｔｅｎｄｓ　ｔｏ　ｓｅｌｅｃｔ　ｔｈｅ　

ａｔｔｒｉｂｕｔｅ　ｗｈｉｃｈ　ｈａｓ　ｍｏｒｅ　ｖａｌｕｅｓ搜索引擎排名优化，ｗｈｉｃｈ　ｈａｓ　ｂｅｅｎ　ｓｉｇｎｉｆｉｃａｎｔｌｙ　ｉｍｐｒｏｖｅｄ　ｂｙ　ｕｓｉｎｇ　ｔｈｅ　ｒｏｕｇｈ　ｓｅｔ　ｔｈｅｏｒｙ　ａｎｄ　ｍａｔｈｅｍａｔｉｃａｌ　ｋｎｏｗ－　

ｌｅｄｇｅ　ｐｏｉｎｔｓ．Ｔｈｅｏｒｅｔｉｃａｌ　ａｎａｌｙｓｉｓ　ａｎｄ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｉｍｐｒｏｖｅｄ　ａｌｇｏｒｉｔｈｍ打开网页的速度慢，ｔＯ　ａ　ｃｅｒｔａｉｎ　ｅｘｔｅｎｔ，ｎｏｔ　ｏｎｌｙ　ｃａｎ　

ｗｅｌｌ　ｓｏｌｖｅ　ｔｈｅ　ｍｕｌｔｉ－ｖａｌｕｅｄ　ｂｉａｓ　ｐｒｏｂｌｅｍ　Ｏｆ　ＩＤ３　ａｌｇｏｒｉｔｈｍ　ａｎｄ　ｇｒｅａｔｌｙ　ｓｉｍｐｌｉｆｙ　ｔｈｅ　ｃｏｍｐｕｔａｔｉｏｎａｌ　ｐｒｏｃｅｓｓ竞价技巧，ｏｂｖｉｏｕｓｌｙ　ｉｍｐｒｏｖｅ　ｔｈｅ　

ａｌｇｏｒｉｔｈｍ’Ｓ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ　ａｎｄ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｅｆｆｉｃｉｅｎｃｙ．　

Ｋｅｙ　ｗｏｒｄｓ：ｄｅｃｉｓｉｏｎ　ｔｒｅｅ；ＩＤ３　ａｌｇｏｒｉｔｍ；ｉｈｎｆｏｒｍａｔｉｏｎ　ｅｎｔｒｏｐｙ；ｒｏｕｇｈ　ｓｅｔ；ｏｂｊｅｃｔｉｖｅ　ａｔｔｒｉｂｕｔｅ　ｉｍｐｏｒｔａｎｃｅ　

０引　言　

近年来，数据挖掘作为一种能发现海量数据中潜在有　

用信息的数据分析方法和技术，已在银行、证券、房地产、　

教育等行业领域得到了广泛应用，为人们获取有价值的信　

息提供了强有力手段。　

分类是数据挖掘技术中最常用的方法之一百度爬虫，而决策树　

年提出，其后很多专家学者对其进行了深入的研究＿１。　。　

本文从改进和简化的角度对ＩＤ３算法进行了一定程度　

的优化，采用粗糙集理论相关知识，用客观属性重要度参　

数来取代全靠用户经验而确定的主观用户兴趣度参数宁波网络推广，一　

定程度上有效弥补了ＩＤ３算法的更大不足并使改进后的算　

法能较好地适用于较大规模的数据集上海互联网推广公司。　

分类以其速度快、精度高、直观易懂和生成模式简单等诸　

多优点而倍受青睐，已在数据挖掘领域中有着不可替代的　

作用和地位seo领导屋。决策树算法作为数据挖掘中一种简单、实用　

而有效的快速分类算法，其本质上是一种以实例为基础的　

归纳学习，它主要着眼于如何从一组无次序、无规则的事　

１　１１）３算法分析　

ＩＤ３算法是一个贪心算法，其核心思想是：利用信息　

论知识，将决策树中每个节点所对应的分裂属性的选取标　

准用信息增益值来度量刷淘宝指数，这样可使得对结果划分中的样本　

在进行分类时所需的信息量最少并反映出划分的“不纯性”　

或最小随机性¨３］，这样在测试决策树中任何一个非叶节点　例中推理出以决策树表示的分类规则＿】　］丹阳网站建设。ＩＤ３算法作为最　

具影响力的一种决策树构造算法是由ＱｕｉｎＬａｎ　Ｊ　Ｒ于１９８６　

收稿日期：２０１１—０９—１５；修订日期：２０１１—１１—２６　

基金项目：河南省教育厅自然科学研究计划基金项目（２千度快手。０８Ｂ５２ＯＯ４７）　

时都能获取被测实例对应的更大类别信息，分裂属性在将　

作者简介：黄宇达（１９７５一）蚌埠seo，男汕头网站优化，河南周口人，硕士研究生，讲师，研究方向为数据挖掘、信息安全与分布式系统等；范太华（１９６２一）百度蹊径，　

男诺亚大陆倒闭，四川绵阳人，副教授西宁做网站，研究生导师六安seo，研究方向为数据挖掘与知识工程、分布式系统、嵌人式技术等Ｅ－ｍａｉｌ：８７２２１２６５３＠ｑｑ．ｃｏｒｎ　

・３０９０・　计算机工程与设计　２ｏ１２正　

实例集划分为若干个子集后快速网站优化哪家好，可使系统对应的熵值达到最　

小品牌推广案例，从而使得期望该非叶节点到达各后代叶节点所对应的　

平均路径最短ｌ４Ｊ，划分之后的若干个子集中类别相同程度　

变为更高，这样不仅大大降低了决策树的平均深度怎么关键词排名优化，而且　

也明显提高了分类准确度和速度seo资料站。　

设Ｓ为一个具有Ｓ个样本的数据集，Ｃ代表分类属性，　

Ｃ　（ｉ一１，２，…，ｍ）表示第ｉ种类别，再设Ｓ　表示分裂　

子集Ｓｊ中所有分类类别为　的样本集，其中　中的样本　

数用Ｓ　表示廊坊网站优化，则样本集ｓ被属性Ａ划分时所对应的信息熵　

ｍ　

为：ｌｎ］ｂ（ｓ）一Ｉｎｆｏ（ｓ１文案怎么写，Ｓ２，…旺道网络营销软件，　）一一　Ｐｉｌｏｇｐ　，　

ｉ一１　

其中　—ｓ／ｓ百度指数酷风。　

设属性Ａ在将Ｓ划分成ｋ个不同子集Ｓ　搜索引擎优化工具，Ｓ２seo公司上海，…，Ｓｋ　

时所对应的属性取值分别为ａ　，ａｚ医院营销策划方案，…，ａ　网站仿制，其中Ｓｉ表示　

Ｓ中所有满足属性Ａ取值为ａ　条件的数据样本百度收录入口，　表示子　

集ｓ『中所有满足类别属性值为Ｇ条件的数据样本集合，　

中样本数用ｓｉｉ表示，由此可得，通过属性Ａ对样本集Ｓ划　

分时所对应的信息熵为　

Ｅ（Ａ）一∑　ｌｎＪｂ（Ｓ　Ｓ２　，…淮南seo，　）　

一一∑∑　生　Ｐ　ｌｏｇｐ　ｕ　（…　１）　

Ｊ＝１　ｉ一１　

其中淘宝客推广教程，Ｐｉｉ—Ｓdreamweaver8 序列号。　／ｓ，表示在子集Ｓ中的任一个样本类别　

等于Ｃ　的概率，（ｓ　，＋ｓ　＋…＋ｓ　）／ｓ为子集Ｓｊ的权网站栏目名称。显　

然seo优化诊断，熵值越小苏州百度推广，子集划分的纯度就越高。　

从而可得出属性Ａ在样本集合Ｓ中为分类提供的信息　

量，即信息增益为　

Ｇａｉｎ（Ａ）一Ｉｎｆｏ（Ｓ）～Ｅ（Ａ）　（２）　

研究表明：利用式（２）选取测试属性存在一个弊端：　

由于加权和使得实例集分类倾向于抛弃小数据量的数据元　

组襄阳seo，从而造成明显多值偏向问题长沙网站制作价格，即ＩＤ３算法在对测试属　

性进行选取时明显倾向于有较多取值的属性上海企业推广，然而这些属　

性在一些情况下并不一定是更优属性［５］安徽网站推广。属性取值数量与　

属性是否重要之间并无必然联系百度指数查询工具，这就使得利用ＩＤ３算法　

分类时有可能会归纳出不正确的知识口］兴安网。比如在股票市场，　

利用ＩＤ３算法分析会忽略个股的重要性，而个股分析往往　

需要对某些少量的元素组引起足够重视；又如在分析大学　

生成绩影响因素时，“学生年龄”往往被传统ＩＤ３算法判定　

为测试属性，但老师认为在实际教学中该属性并非那　

么重要；再如在对学生迟到因素进行分析时，学号属性对　

于在校生而言是的，该属性有大量取值nofollow，因此其被选　

取为决策树根节点或非常接近根节点的可能性更大关键词扩展工具，因为　

通过该属性可完全预测各样本分类属性值，然而该属性在　

学生迟到影响因素分析中没有任何作用龙岩做网站，然而数值相对较　

少的一些诸如老师原因、个人原因等属性在分析中很可能　

反而会发挥更大作用马鞍山网站建设。　

针对ＩＤ３算法上述更大不足，很多学者已对其展开了　

进一步研究番禺网站公司。比如媒介策略，文献［６］在求信息熵值时引入用户兴　

趣度，但需要用户具有一定专业知识背景且要大量反复试　

验，虽然一定程度上克服了ＩＤ３算法的多值倾向缺陷淘宝指数，但　

由于受用户主观意识影响草根站长，往往较难反应客观现实网络营销策划的步骤，尤其　

对一些不熟悉的用户；文献［７］创新性地利用泰勒公式和　

麦克劳林公式来简化信息熵的运算，提高了算法效率，但　

并没有考虑到简化带来的误差；文献［８］提出关联度函数　

的概念，虽然在一定程度上也能克服多值倾向的不足又名荆州站长网，但　

在计算时完全忽略了信息熵而导致不能与ＩＤ３算法的分类　

准确率相媲美；文献［９］采用灰关联度取代用户兴趣　

度，但在实际应用中对于灰度较低和取值较多往往较难界　

定范围。　

２算法改进及其简化　

２．１粗糙集理论的相关概念　

设信息表Ｓ一（ｕ西安百度推广，Ａ广水网，Ｖ怎样处理公关危机，Ｆ）重庆产品推广，其中Ｕ为论域白城网，Ａ为　

属性集合，Ｖ为属性的值域，Ｆ为Ｕ×Ａ—Ｖ的映射优化训练。若　

Ａ＝ＣＵＤ快照优化，ＣｎＤ一西韩城网，Ｃ是条件属性集网络广告销售，Ｄ是决策属性集。　

定义１令Ｐ　Ａ，当ｉｎｄ（Ｐ）一｛（ｘ网站营运，ｙ）∈Ｕ×Ｕ　Ｉ　

ＶａＥＰ，ｆ（ｘ哈尔滨网站开发需要多少钱，ａ）一ｆ（ｙ长沙seo，ａ））且（ｘ网站seo优化培训，ｙ）∈ｉｎｄ（Ｐ）时，　

则称Ｘ和ｙ是Ｐ不可区分的外贸推广。　

定义２对于每个子集Ｘ　Ｕ及一个等价关系ＲＥ　ｉｎｄ　

（Ｐ），则Ｘ的Ｒ下近似为ＲＸ—Ｕ｛Ｙ∈Ｕ／Ｒ　ｌ　Ｙ　ｘ｝扬中网站建设。　

定义３设Ｐseo排名优化课程，Ｑ为Ｕ上的两个等价关系簇，Ｑ的Ｐ　

正域ＰＯＳＰ（Ｑ），定义为Ｐ０ＳＰ（Ｑ）一Ｕ　ＰＸ网络广告方式。另外，称　

Ｑ以程度ｋ依赖于Ｐ，即依赖度ｋ＝　（Ｑ）一ｆ　Ｐ０ＳＰ　

（Ｑ）１／１　Ｕ　ｌ常德网站建设。　

定义４属性依赖度¨］　淮南seo。设Ａ为属性集301重定向，Ｃ、Ｄ　Ａ，　

分别表示条件属性和决策属性网络营销品牌。令ｋ一７ｃ（Ｄ）一ｌ　Ｐ０　

（Ｄ）｛／Ｉ　Ｕ　ｌ，称ｋ为依赖度，Ｄ以ｋ（Ｏ≤ｋ≤１）度依赖　

于Ｃ超级外链，并记为Ｃ＝＞Ｄｋ，若ｋ一１，则Ｄ完全依赖于Ｃ，若ｋ＜　

１，则部分依赖于Ｃ。系数ｋ描述了利用属性Ｃ可将论域Ｕ　

中元素正确分类到划分Ｕ／Ｄ的块中的比率外国搜索引擎，反映出属性集　

Ｃ对于决策属性Ｄ的重要程度。　

定义５设属性ａ∈Ｃ湘潭网，令　∞（ａ）一７ｃ（Ｄ）～７ｃ—Ｉａ）　

（Ｄ），则２ｃＤ（ａ）表示属性ａ关于Ｄ的重要性网站优化软件，即表明把属　

性ａ从Ｃ中删去后对分类决策影响的重要度，进一步说seo优化诊断，　

就是不能被正确分类的样本所占的比例。　

２．２算法的改进　

根据定义５和上面的式（１）、式（２）以及选取信息增　

益更大的属性作为测试属性的特点如何推广，可得到改进后的公式　

Ｇａｉｎ　（Ａ）一Ｉｎｆｏ（ｓ）一［１一　ｃＤ（Ａ）］Ｅ（Ａ）　

：Ｉｎｆ０（Ｓ）＋［１一　ｃＤ（Ａ）］　

∑∑　±垫±：：！±　ｌｏｇｐｏ　（３）　

Ｊ一１　ｔ＝１　

第３３卷第８期　黄宇达归元寺网站，范太华：决策树ＩＤ３算法的分析与优化　

１　１　对于式（３）天津搜索引擎优化，通过新的属性重要度参数的加入，使决　

策树在学习过程中有效地避免了多值但并非更优属性的偏　

向表现汉中建网站，凸显了样本更优属性的浮出几率ｌ１　，从而在一定　

程度上较好地克服了ＩＤ３算法更大缺点，即多值偏向导致　

易出现选取出与现实无关的属性或大数据量掩盖小数据量　

的错误。　

２．３算法的简化　

即当ｍ—ｎ＋１时如何删除百度快照，厂（∑　）［　）≥∑丸ｆ（ｚ　）仍成立，　

一１　ｉ一１　

结论得证昆明网页制作。　

对于ｌｏｇｐ　四川网站建设，由于Ｐ　∈Ｅ０，１］兰州网站设计，故由性质１可得　

ｌｏｇｐ　在Ｅ０baiidu，１］上为凸函数；又由于　∑（　ｌｏｇｐ　）≤　

ｌｏｇ（∑　），所以可再由性质２得出　∑（　ｌｏｇｐ站优云。）≤　

ｉ一１　在式（３）中，由于类别数ｍ始终为一定值且对于决策　

树中任一具体分支对应的样本集ｓ’而言搜索网站有哪些，在进行测试属　ｌｏｇ（∑　）成立。因此利用该不等式并结合式（４）可得到　

性选取过程中百度推广后台登陆，Ｉｎｆｏ（Ｓ　）也始终为一定值网络营销的概念，所以为提高计　

算效率，结合式（１）网络营销优势，可对式（３）作进一步修改且并不影　

响最终结果　

Ｅ　（Ａ）一ｌ　１　套　吐　Ｐｏｌｏｇｐ　

（４）　

下面根据式（４）的特点，利用数学中凸函数所具有的　

相关性质再对该公式的计算作进一步简化seo培训公司。　

定理１设厂为区间ｊ上的二阶可导函数商洛网站建设，则在ｊ上厂　

为凸（凹）函数的充要条件是ｆ”（ｘ）≥Ｏ（庄河网，”（ｘ）≤Ｏ）google pr值，　

ｘＥ　。　

性质１　ｌｏｇ函数在［Ｏ广州seo，１］上是凸函数。　

证明：显然百度快照劫持，对于［Ｏgoogle账号，１］上任意两点ｘ１死链检测，Ｘ２www 12580 com，满足　

当ｘ１一）（２一△ｘ—ａ（Ｏ）时，函数ｌｏｇｘ在［Ｏ竞价点击软件，１］上连续，　

１　—１　又由于（１ｏｇｘ）’一　且（１ｏｇｘ）”一　＜０免费seo诊断，故有　

定理１可以得出结论：函数ｌｏｇｘ在［Ｏ，１］是凸函数相关关键词。　

性质２设ｆ（ｘ）为凸函数且Ｘ为非空集合用户画像，Ｘｉ∈Ｘ免费友情链接网，　

若　Ｘｉ￣＞０，且∑　一１兔子优化大师，则∑　＿厂（ｚ　）≤ｆｌ∑　ｌ。　

ｉ一１　ｉ一１　ｉ一１　

证明：用数学归纳法证明：当ｍ一２时，由凸函数的定　

义而知百度网站优化软件，结论显然成立浙江网站建设。　

假设当ｍ—ｎ（ｎ＞２）时结论成立海外推广，即＿厂（　ｚ）≥　

∑　＿厂‘　）关键词排名推送者，则当ｍ￣ｎ＋ｌ时seo优化网络推广，有　

计　厂（∑九　）一厂Ｉ

ｆ　

∑丸　

∑　１　

∑　

＋　升　Ｉ

　ｆ

≥　ｆＪ　

∑　ｌ　

下面公式　

（Ａ）一Ｅ１一　ＣＤ（Ａ）］∑　呈上＿丰　ｌ。ｇ（∑　）　

：ｌ　；ｉ　

（５）　

这样在式（５）中seo关键词首页排名，对于属性Ａ的每个分裂子集信息量　

的计算即对于公式中每个具体ｊ值，只需对ｌｏｇ函数求一次　

值即可得出该子集的近似信息量，然而ＩＤ３算法则需要对　

ｌｏｇ函数求ｍ次值，所以大大提高了计算效率。　

这里天津百度公司，由于∑ｓ　—ｓｊ成立并且　

（詈）　一　号　

［（　ｓ　）　一　（　］　

ｉ　：ｌ￡曼一常熟百度推广，１　（ｆ≠ｌ＼　詈　）Ｊ　Ｊ／　

一１一∑∑（　Ｐ。）　

所以有等式ｌｏｇｆ∑埔）一ｌ

、ｉ＝１　

ｏｇｆ１一∑∑ＰｏＰ　）

、　ｉ一１　ｔ　１．￡≠ｉ　

ｌｎ（１一∑∑ＰｏＰ网站访问。１　

ｉ　１　ｔ　１　≠　成立。另外，由于对任一个确定的　

ｊ值域名与空间，有一∑∑Ｐｏ

…１ｔ　１可以发表文章的网站，￡≠　

Ｐ。一统计分析工具。成立百渡网，故可利用数学中等阶无　

穷小变换，有　

Ｉｎｆ１一∑∑Ｐｏ

、　ｉ一１　ｔ＝１google账号，￡≠　

Ｐ莱芜网站优化。）一∑∑Ｐｏ

ｉ＝１　ｔ一１搜狗与360，￡≠　

Ｐ　

１ｎ２　ｌｎ２　

去掉常数项ｌｎ２后郑州网络营销公司，式（５）变为　

（Ａ）…Ｅ１　（Ａ）］∑虹蔓　｝　

ｉ一１　

∑∑夕

ｉ＝１　ｒ一１四川网络推广，　

±　±：：：±　

Ｓ　

［　∞（Ａ）一１］∑∑ＰｏＰ。　

１　ｔ　１　≠ｉ　

（６）　

当然自动推广软件，上面简化过程难免会引起一定程度的误差seo公司上海。经　

多次试验证明文山网，将式（６）乘以属性的特征值个数ｎ，可有　

・３０９２・　计算机工程与设计　

对比如图１所示企划行业交流平台。　

表１算法试验结果　

２０１２拄　

效弥补由式（４）到式（６）简化过程所带来的误差。　

（Ａ）一　∑　土　蔓　Ｓ　（Ａ）　１１∑∑ＰｏＰ。　

ｉ＝１　—ｉ．ｆ≠　

（７）　

分析式（７）不难发现如何做网络推广挣钱，已经彻底消除了比较耗时的对　

数运算相关搜索，大大提高了算法执行效率，加快了决策树构建速　

度。对于每个属性和县网，可分别利用式（７）求值，最后选取最　

大值对应的属性作为测试属性即节点属性岳阳seo。　

２．４改进算法步骤描述　

改进后的算法执行步骤具体描述如下：　

输入：训练样本Ｓａｍｐｌｅｓ排名点击软件，样本中各个属性值均为离散　

的seo手段，另外假设候选属性集合为ａｔｔｉｒｂｕｔｅ—Ｌｉｓｔ以及Ｇｅｎｅｒａｔｅ—　

ＤｅｃｉｓｉｏｎＴｒｅｅ为所给定的训练集对应的决策树。　

输出：一棵决策树。　

（１）创建一个节点Ｎ；　

（２）如果Ｓａｍｐｌｅｓ都为同一个类别Ｃalexa排，则将节点Ｎ作　

为树中一个叶节点杭州seo论坛，同时将其类别标识为Ｃ；　

（　ｉｆ　ａｔｔｒｉｂｕｔｅ

—Ｌｉｓｔ为空seo蜘蛛精，ｔｈｅｎ；　

（４）返回Ｎ并将其作为叶节点，同时将其类别标记为　

Ｓａｍｐｌｅｓ中出现次数最多的类别；　

（５）按照本文所给式（７）分别计算ａｔ

∽　

ｔｒｉｂｕｔｅ—Ｌｉ

ｓｔ中　

各个属性所对应的值山西建站，然后选取更大值对应属性为测试属　

性即ｔｅｓｔ—ａｔｔｒｉｂｕｔｅ并将树中所创建的节点Ｎ标记为ｔｅｓｔ—　

ａｔｔｒｉｂｕｔｅ；　

（６）ｆｏｒ　ｅａｃｈ　ｔｅｓｔ

—ａｔｔｒｉｂｕｔｅ所对应的每一个属性值ａ　百度统计，　

将其用于划分Ｓａｍｐｌｅｓ；　

（７）对于由节点Ｎ所长出的一个满足条件ｔｅｓｔ—ａｔｔｒｉ－　

ｂｕｔｅ＝ａ网络广告类型。的树的分支；　

（８）假设Ｓｉ为Ｓａｍｐｌｅｓ中满足条件ｔｅｓｔ—ａｔｔｒｉｂｕｔｅ＝ａｉ　

所对应的样本集；　

（９）如果Ｓｊ为空，ｔｈｅｎ；　

（１Ｏ）为树新加一个树叶营销推广公司，同时将其类别标记为Ｓａｍ－　

ｐｌｅｓ中出现次数最多的类别；　

（１１）ｅｌｓｅ在树中增加一个由Ｇｅｎｅｒａｔｅ—ＤｅｃｉｓｉｏｎＴｒｅｅ　

（Ｓ，ａｔｔｒｉｂｕｔｅ—Ｌｉｓｔ－－ｔｅｓｔ

—ａｔｔｒｉｂｕｔｅ）所返回的新节点；　

显然内链优化，上述决策树的构建过程为一个递归过程，过程　

终止条件为步骤（２）、步骤（３）及步骤（９）常德seo。　

３试验及分析　

采用ＵＣＩ机器学习数据库中若干标准数据集进行试验　

分析竞价排名。其中，对于每个数据集网络推广论坛，每次试验都从中随机选取　

１／４样例作为训练集阿拉丁推广，其余全部作为测试集。对于数据集　

中数值型属性都采用文献［１３］中的方法进行离散化竞价推广。每　

个数据集都先后进行１０次试验，在相同的软硬件环境下，　

试验结果见表１。　

实验结果中两种算法在不同数据集上平均分类准确率　

图１　改进前后两种算法分类准确率对比　

在表１和图１中排名优化，Ｃ１表示ＩＤ３算法平均分类准确率，　

ｃ２表示改进算法平均分类准确率迈步者，ｃ３表示两种算法平均　

执行时间比（改进算法在前）泰安网。　

从试验结果可以直观发现：针对不同规模的数据集深圳网络营销，　

改进算法与传统ＩＤ３算法相比，前者不仅在平均分类准确　

率而且在算法执行时间上都明显优于后者如何注销域名备案，改进后的算法　

能得出更为合理的决策树什么是互动营销，从而能更好地指导对新数据的　

分类和预测沈阳百度。　

４结束语　

本文首先针对传统ＩＤ３算法更大的不足即属性的多值　

偏向问题，通过利用粗糙集理论相关知识点即使用客观属　

性重要度作为参数网站安全测试，在一定程度上克服了１１３３算法的这个　

主要缺陷反向链接，然后利用数学相关知识点对属性信息增益值的　

计算过程作以简化，明显提高了算法执行效率。实验结果　

表明：新算法与ＩＤ３算法相比无论在分类准确度还是分类　

速度方面都是相对优越的并具有较好的分类效果。　

参考文献：　

Ｅ１３　Ｊｌ　Ｘｉ　ｙｕ推广的软文，ＨＡＮ　Ｑｉｕ－ｍｉｎｇ，ＬＩ　Ｗｅｉ龙岩网站，ｅｔ　ａ１．Ｄａｔａ　ｍｉｎｉｎｇ　ｔｅｃｈ—　

ｎｏｌｏｇｙ　ａｐｐｌｉｃａｔｉｏｎ　ｅｘａｍｐｌｅｓ　ＥＭ３．Ｂｅｉｊｉｎｇ：Ｍｅｃｈａｎｉｃａｌ　Ｉｎｄｕｓ—　

ｔｒｙ　Ｐｒｅｓｓ安卓系统优化，２００９（ｉｎ　Ｃｈｉｎｅｓｅ）．［纪希禹镇江百度优化，韩秋明，李微baidu1，等．　

数据挖掘技术应用实例［Ｍ３．北京：机械工业出版　

社站优云，２００９．］　

Ｅ２３　ＣＨＥＮ　Ａｎ，ＣＨＥＮ　Ｎｉｎｇ，ＺＨＯＵ　Ｌｏｎｇ－ｘｉａｎｇ旅游网站建设，ｅｔ　ａ１．Ｄａｔａ　

ｍｉｎｉｎｇ　ｔｅｃｈｎｏｌｏｇｉｅｓ　ａｎｄ　ａｐｐｌｉｃａｔｉｏｎｓ［Ｍ　３．Ｂｅｉｊｉｎｇ：Ｓｃｉｅｎｃｅ　

ｏ　

第３３卷第８期　黄宇达，范太华：决策树ＩＤ３算法的分析与优化　・３０９３・　

Ｐｒｅｓｓ营销知识，２００６（ｉｎ　Ｃｈｉｎｅｓｅ）．［陈安上海企业推广，陈宁百度搜索大数据，周龙骧怎么学网络推广，等．数据　

挖掘技术及应用［Ｍ］．北京：科学出版社，２００６．］　

－Ｉ３］ＷＥＩ　Ｚｈｅｎ－ｇａｎｇ网站怎么防攻击，ＺＨＯＵ　Ｘｉａｎｇ．Ｏｎｅ　ｉｍｐｒｏｖｅｄ　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　

ｏｎ　ＩＤ３　ａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，２０１０，３７（７Ａ）：　

¨一１２（ｉｎ　Ｃｈｉｎｅｓｅ）．［魏振钢鹤岗网，周翔．ＩＤ３算法的一种改进算　

法ＥＪ］．计算机科学，２０１０，３７（７Ａ）：１１—１２．］　

［４］ＳＵＮ　Ａｉ－ｄｏｎｇ黑客seo，ＺＨＵ　Ｍｅｉ　ｊｉｅ企业危机公关，ＴＵ　Ｓｈｕ　ｑｉｎ．Ｉｍｐｒｏｖｅｄ　ＩＤ３　ａｌ—　

ｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ａｔｔｒｉｂｕｔｅ　ｖａｌｕｅｓ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　

ａｎｄ　Ｄｅｓｉｇｎ又名丹江口站长网，２００８，２９（１２）：３０１１－３０１２（ｉｎ　Ｃｈｉｎｅｓｅ）．［孙爱　

东温州seo，朱梅阶杭州百度推广公司，涂淑琴．基于属性值的ＩＤ３算法改进＿Ｊ］．计算　

机工程与设计，２００８，２９（１２）：３０１１　３０１２．］　

［５］ＺＩ－ＬＡＮＧ　Ｌｉｎ，ＣＨＥＮ　Ｙａｈ河北网站优化，ＬＩ　Ｔａｏ—ｙ｜ｎｇ，ｅｔ　ａ１．Ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ｃｌａｓ—　

ｓｉｆｉｃａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　ｒｅｓｅａｒｃｈ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ百度大师，２０１１百度指数介绍，　

３７（１３）：６６～６７（ｉｎ　ＣＮｎｅ￣）．［张琳seo 是什么，陈燕，李桃迎，等．决策　

树分类算法研究［Ｊ］．计算机工程3hhhh com，２０１１，３７（１３）：６６—６７．］　

［６］ＷＡＮＧ　Ｍｉａｏ网站销售，ＣＨＡＩ　Ｒｕｉ—ｍｉｎ．Ａｎ　ｉｍｐｒｏｖｅｄ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ｃｌａｓ—　

ｓｉｆｉｃａｔｉｏｎ　ａｔｔｒｉｂｕｔｅ　ｓｅｌｅｃｔｉｏｎ　ｍｅｔｈｏｄ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅ－　

ｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ百度搜索量，２０１０网站策划方案，４６（８）：１２７　１２９（ｉｎ　Ｃｈｉｎｅｓｅ）．　

［王苗深圳百度电话，柴瑞敏．一种改进的决策树分类属性选取方法［Ｊ］．　

计算机工程与应用，２０１０电子商务网站推广，４６（８）：１２７—１２９．］　

Ｌ７］ＨＵＡＮＧ　Ａｉ～ｈｕｉ安康百度推广，ＣＨＥＮ　Ｘｉａｎｇ－ｔａｏ．Ｔｈｅ　ｉｍｐｒｏｖｅｍｅｎｔ　ｏｆ　ＩＤ３　

ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　

Ｓｃｉｅｎｃｅ网络营销品牌，２００９新闻营销的优势，３１（６）：１０９—１１１（ｉｎ　Ｃｈｉｎｅｓｅ）．［黄爱辉ugc用户，陈　

湘涛．决策树ＩＤ３算法的改进［Ｊ］．计算机工程与科学seo博客，　

２００９刷快照，３１（６）：１０９—１１１＿］　

［８］ＨＡＮ　Ｓｏｎｇ－ｌａｉ企业网站推广方案，ＺＨＡＮＧ　Ｈｕｉ，ＺＨＯＵ　Ｈｕａ－ｐｉｎｇ．Ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　

ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ｃｏｒｒｅｌａｔｉｏｎ　ｄｅｇｒｅｅ　ｆｕｎｃｔｉｏｎ　

ｌＪ］．Ｃｏｍｐｕｔｅｒ　Ａｐｐｌｉｃａｔｉｏｎｓ俄罗斯推广，２００５百度收录口，２５（１１）：２６５５　２６５７（ｉｎ　

Ｃｈｉｎｅｓｅ）．［韩松来，张辉医疗软文，周华平．基于关联度函数的决策　

树分类算法口］．计算机应用游戏优化，２００５，２５（１１）：２６５５　２６５７．］　

［９］ＹＥ　Ｍｉｎｇ－ｑｕａｎseo优化操作，ＨＵ　Ｘｕｅ－ｇａｎｇ．Ｏｎｅ　ｉｍｐｒｏｖｅｄ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ａｌ—　

ｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ｇｒｅｙ　ｒｅｌａｔｉｏｎ　ｄｅｇｒｅｅ口］．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅ－　

ｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ，２００７百度指数怎么看，４３（３２）：１７１—１７３（ｉｎ　Ｃｈｉｎｅｓｅ）潜江网站建设，　

［叶明权上海营销公司，胡学钢．一种基于灰关联度的决策树改进算法　

＿Ｊ］．计算机工程与应用，２００７，４３（３２）：１７１　１７３．］　

［１ｏ］ＷＡＮＧ　Ｌｕ郑州网站设计，ＱＩＵ　Ｔａｏ－ｒｏｎｇ，ＨＥ　Ｎｉｕ网奇seo培训，ｅｔ　ａ１．Ｆｅａｔｕｒｅ　ｓｅｌｅｃ—　

ｔｉｏｎ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｒｏｕｇｈ　ｓｅｔ　ａｎｄ　ａｎｔ　ｃｏｌｏｎｙ　ｏｐｔｉｍｉｚａｔｉｏｎ　ａｌ—　

ｇｏｒｉｔｈｍ　ＥＪ］．Ｎａｎｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　Ｊｏｕｒｎａｌ（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ）url地址，　

２０１０，４６（５）：４８７—４９３（ｉｎ　Ｃｈｉｎｅｓｅ）．［王璐兰州建网站，邱桃荣邢台网站优化，何　

妞seo人，等．基于粗糙集和蚁优化算法的特征选择方法ＥＪ］．　

南京大学学报（自然科学版）深圳seo推广公司，２０１０，４６（５）：４８７—４９３．］　

［１１］ＴＡＯ　Ｒｏｎｇ什么是网站建设，ＺＨＡＮＧ　Ｙｏｎｇ—ｓｈｅｎｇ，ＤＵ　Ｈｏｎｇ　ｂａｏ．Ｉｍｐｒｏｖｅｄ　

ＩＤ３　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ｒｏｕｇｈ　ｓｅｔ　ｔｈｅｏｒｙ　ｉｎ　ａｔｔｒｉｂｕｔｅ　ｄｅｐｅｎ－　

ｄｅｎｃｅ口］．Ｈｅｎａｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　Ｕｎｉｖｅｒｓｉｔｙ　Ｊｏｕｒｎａｌ　

（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ），２０１０网络营销策划公司，３１（１）：４２—４５（ｉｎ　Ｃｈｉｎｅｓｅ）．［陶　

荣网络营销推广的具体方法，张永胜百度指数，杜宏保．基于粗集论中属性依赖度的ＩＤ３改进　

算法［Ｊ］．河南科技大学学报（自然科学版）大连网络营销，２０１０，３１　

（１）：４２—４５．］　

［１２］ＳＵＮ　Ｈｕａｉ—ｎｉｎｇ河北网站制作，ＨＵ　Ｘｕｅ－ｇａｎｇ．Ｏｎｅ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ｌｅａｒｎｉｎｇ　ａｌ—　

ｇｏｒｉｔｈ

企业营销网站、SEO优化、行业细分占位策划，营销系统开发等领域，为中小微企业和个人提供以上领域内的服务以及咨询。加微信：qq438569148 马上咨询

上一篇：控制理论为什么是基础理论控制原理基础下一篇：什么是数九什么是数学

决策树ID3算法决策树id3算法实现

谢谢你们爱我的每个人-佳亚

相近阅读

随机文章

决策树ID3算法 决策树id3算法实现

谢谢你们爱我的每个人-佳亚

相近阅读

随机文章

决策树ID3算法决策树id3算法实现