还剩1页未读,继续阅读
文本内容:
数据挖掘的大算法
101.介绍数据挖掘是一种从大量数据中提取实用信息和模式的过程它可以匡助企业做出更明智的决策,发现隐藏在海量数据暗地里的规律,并预测未来趋势本文将介绍十个常用且重要的数据挖掘算法
2.决策树算法决策树是一种基于条件语句构建分类或者回归模型的方法通过对属性值进行判断,逐步分割样本集合并一个可解释性强、易理解和直观表示结果关系图形化结构
3.K均值聚类算法K均值聚类是一种无监督学习方法,在给定K个簇数目下,将n个对象划分为K组以最小化各组内部距离平方之和,并使得每组间距尽可能地远离其他点
4.支持向量机(SVM)SVM是一种二元线性分类器及非线性拓展工具,它能够找到两者之间超平面上支撑向量与边界相隔最近位置.
5.集成学习Ensemble Learning集成学习利用多个单独训练的模型来进行预测,通过结合多个弱分类器或者回归器以获得更好的性能
6.朴素贝叶斯算法贝叶斯定理是一种基于概率统计方法判断未知事件发生可能性的数学公式在数据挖掘中,朴素贝叶斯算法将特征之间假设为相互独立,并根据已有样本训练出一个分类模型
7.神经网络Neural Networks神经网络是由大量神经元组成并具备自我适应和学习功能的信息处理系统,它可以用于解决复杂问题、识别图象等任务.
8.关联规则挖掘Association RuleMining关联规则挖掘旨在寻觅频繁项集及其关联规则,在市场篮子分析、交易记录分析等领域广泛应用它匡助企业了解产品购买行为与消费者喜好之间存在着怎样密切联系
9.主成份分析PCAPCA是一种常见降维技巧,又称主轴变换/空值转化/协方差最小化投影.
10.隐马尔可夫模型HMMHMM摹拟了一个隐藏的马尔可夫链随机不可观测序列,通过这个模型可以预测未来状态.本文档涉及附件
1.示例数据集
2.算法实现代码本文所涉及的法律名词及注释-数据挖掘指从大量数据中提取实用信息和模式的过程-决策树算法一种基于条件语句构建分类或者回归模型的方法-K均值聚类算法将n个对象划分为K组以最小化各组内部距离平方之和,并使得每组间距尽可能地远离其他点-支持向量机SVM:是一种二元线性分类器,能找到两者之间超平面上支撑向量与边界相隔最近位置.-集成学习Ensemble Learning:利用多个单独训练的模型进行预测,获得更好性能.。
个人认证
优秀文档
获得点赞 0