利用数据挖掘技术　做好档案编研选题之探析_档案学

您当前所在位置：

利用数据挖掘技术　做好档案编研选题之探析

2013-01-10

挖掘数据库是一个储存待挖掘数据的数据库。档案馆的服务器日志数据和档案用户的注册信息等，都是挖掘数据库的数据源。在数据写人挖掘数据库前，要先对数据源的数据进行筛选和整合，包括修改错误的记录、删除不相关的记录等;通过处理后的数据就成为挖掘的数据了。同时，数据库的数据需要不断地进行新增、修改和删除，以求得到更好的数据效果。

(3)分析数据

在挖掘数据库建立之后，就要对数据库中的数据进行分析处理：首先根据档案用户ID划分数据，找到每个用户的访问记录集;然后将该用户的访问记录集以一个固定的时间间隔进行分割，找到该用户的每一次访问记录集(我们称这个每一次访问记录集为一个“访问事务”);最后，将所有的访问事务按时间排序，构成进行挖掘的事务集。每一个访问事务相当于访问者对站点的一条访问路径。另外，还需把网页中的文本、图片及其他文件转换成数据挖掘算法的可用形式。

(4)建立模型

建立模型之前需要进行数据准备工作，包括选择预测变量、记录，创建新变量和转换变量。选择适当的变量和记录能大大提高模型的建立效率。在多数情况下，我们还需创建一些新的预测变量(比如一些比值)，以增加预测模型的准确性;根据选择的算法和工具需对变量进行转换。在数据挖掘中采用比较多的算法主要有神经网络和决策数算法。

下一篇：《档案法》中的法律责任探析

利用数据挖掘技术 做好档案编研选题之探析

利用数据挖掘技术　做好档案编研选题之探析