iris鸢尾花实验
- 一、实验目的
- 二、实验环境
- 三、实验要求
- 四、实验过程及结果
- 五、实验总结
一、实验目的
使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。
二、实验环境
实验采用Weka 3.8?平台,数据使用给定的鸢尾花xls格式的数据集iris.xls。?对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal?length、sepal?width、petal?length、petal?width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的类别。该数据集中的全部实例共可分为三类:Iris?Setosa、Iris?Versicolour和Iris?Virginica。
实验所需的训练集和测试集均为iris.arff。
三、实验要求
1、将iris.xls转化为iris.arff。
2、应用iris数据集,分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。
3、使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。
四、实验过程及结果
1、先将数据集iris.arff放入Weka 3.8?平台中
第一步:将原始Excel文件另存为CSV文件
第二步:在weka中打开iris数据集.csv文件,另save为.arrf文件,然后在weka中打开iris数据集.arrf文件即可。
2、在waka中应用iris数据集,分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价。
首先移除remove无关数据
(1)KNN分类器:
(2)C4.5决策树分类器:
C4.5算法是ID3算法的改进,C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。
在weka中右键可查看生成的决策树
(3)朴素贝叶斯分类器:
关于朴素贝叶斯算法,贝叶斯方法不仅能够计算显式的假设概率,还能为理解多数其他方法提供一种有效的手段。贝叶斯方法的特点主要包括:增量式学习的特点;先验知识可以与观察到的实例一起决定假设的最终概率的特点;允许假设做出不确定性预测的特点;对新实例的分类可由多个假设以它们的概率为权重一起作出预测的特点等等。算法处理里的数据集特征之间互不相关,主要应用于文本分类、性别分类。
五、实验总结
应用iris数据集分别利用实验中的算法分析预测,最终结果选用C4.5算法准确率最高,准确分类率为98%。通过实验,也让我更深刻的学习到这三种算法的应用数据集和其优缺点,基本掌握weka平台操作。
坚持比努力更可怕!冲冲冲