千人智库官方二维码

首页  >   千人智库 > 学术进展 > 信息科学
数据挖掘技术的应用探讨
时间:2019-10-22 09:14:00来源:汉斯出版社
提交需求
提要:数据挖掘是一种能从海量的、随机的、不完整的、复杂的数据中提取出对人们可能潜在有用的信息和知识的过程。

随着信息时代的到来,在享受信息技术所带来的便利的同时,人们也面临着信息时代所导致的信息爆炸问题,面对着越来越多的信息数据,从中获得有价值的知识变得越来越困难,而从上世纪80年代开始,伴随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。数据挖掘是一种能从海量的、随机的、不完整的、复杂的数据中提取出对人们可能潜在有用的信息和知识的过程,其中涉及到多种技术的内容,包括计算机技术、数据库技术、数据统计技术等。

(图片来源于网络,侵删)

通过数据挖掘技术来处理大量的数据内容极大地提高人们处理信息的效率,从中可以获取大量有价值的信息和知识来帮助人们进行决策工作。在汉斯出版社《数据挖掘》期刊中,有论文学者简述了数据挖掘技术产生的背景及其概念,并进一步详细描述了数据挖掘的七个过程,最后详细阐述了数据挖掘技术的主要数据挖掘方法及其适用领域。

数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程,一般来说,我们将数据挖掘过程概括为以下7个部分定义挖掘目标数据取样数据探索数据预处理模式发现模型构建模型评价。数据挖掘的方法也有五种:分类和回归技术聚类分析关联规则时序模式异常检测

分类和回归技术是数据挖掘中使用最多最频繁的两种方法。简单地说,分类是将由一系列变量组成数据集合映射到预先定义好的群组或类。分类的前提是这组数据已经有确定了的类别,所以分类又被称为有监督的学习。回归分析是用属性的历史数据预测未来趋势,找出各个数据之间的相关关系。回归分析通过假设存在可以拟合目标属性的函数,然后利用样本数据进行误差分析,确定最能体现目标属性的函数。简言之,回归分析是处理变量间(包括一对一和一对多)相关关系的一种统计方法。

聚类分析是根据数据之间的相似度进行数据分类的一种方法,它是在没有划分数据类的前提下进行的。所以,聚类又被称为无指导的学习。聚类的输入对象是一组事先未被分类的数据,通过确定数据之间在原本的属性上的相似性来完成聚类任务。不管研究对象中是否真的有不同的类别,运用聚类分析都能将样本数据分成若干个类别,但其结果并不是唯一的,选择哪一个分类结果最终是由研究者的主观判断和分析总结决定的。

数据挖掘技术从概念的提出到理论的完善、算法的成熟一步步成为了一套完整的体系,并成功应用在许多领域,例如金融、电子商务、医疗、机械工业、网络等领域,这也表明了数据挖掘技术有着广泛的应用前景和研究价值。面对信息时代所产生的大量数据,根据实际的业务需求我们可以按照本文介绍的数据挖掘过程一步步分析研究,并结合适当的数据挖掘方法提取出所需要的信息和知识,挖掘出潜在的模式关系。

文章来源:https://www.hanspub.org/journal/PaperInformation.aspx?paperID=32592

标签
数据 挖掘 技术 应用 探讨

版权声明:千人智库网系千人智库唯一官方网站,凡转载本网内容请注明来源与作者。

作者系郭珊珊

评论详情

   暂无相关评论!
RSS订阅