您当前所在位置:

利用数据挖掘技术 做好档案编研选题之探析

2013-01-09

由于网络速度和计算机软硬件处理能力的大大提高,使得服务器可以在档案用户访问网站的同时记录用户访问信息。具体做法是:在档案馆网页设计时,对各链接对象进行设置,当用户访问该链接对象时,系统自动将用户的信息和访问对象的信息实时传递到服务器端的用户访问记录文件中,然后结合历史数据和客户实时访问的信息进行数据挖掘,采用分析网页关键字、下载记录、检索词、用户对网页利用时间和频度等方式获取用户需求信息。

用户使用记录挖掘主要是对服务器日志、Cookie、用户注册数据、电子邮件查询响应数据及Web购买数据的挖掘。目前,使用记录挖掘可分为两大类:访问模式的追踪和个性化使用记录的追踪。其中个性化的使用记录追踪倾向于分析个别用户的偏好,其目的是根据不同用户的访问模式,提供相应的定制服务。档案编研部门通过对用户访问记录的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术如基于业务聚类、使用聚类和联合规则来自动提取信息,通过数据分析,了解和掌握档案用户需求的特点,预测其未来趋向,结合社会热点选定档案编研题目。

3、建立档案编研选题的用户模型

(1)问题定义

问题定义是数据挖掘中的第一步,也是最重要的的一步,即对挖掘的目标作一个清楚的定义。具体来说,就是通过分析档案馆服务器的日志数据、用户检索结果等,来挖掘出档案用户的使用模式和兴趣模式,从而使档案编研部门可以利用这些搜集到的信息有针对性地、有目的性地组织选题,进行编研工作,推出用户满意的编研成果。这样即可以有效地克服出版发行者的盲目性,改变目前存在的某种程度的供需失调的状况,真正根据用户的需求来出版档案文献编纂成果,从而避免了因为不了解社会的实际需要而造成的过量出版和需求短缺。

(2)建立挖掘数据库

挖掘数据库是一个储存待挖掘数据的数据库。档案馆的服务器日志数据和档案用户的注册信息等,都是挖掘数据库的数据源。在数据写人挖掘数据库前,要先对数据源的数据进行筛选和整合,包括修改错误的记录、删除不相关的记录等;通过处理后的数据就成为挖掘的数据了。同时,数据库的数据需要不断地进行新增、修改和删除,以求得到更好的数据效果。

(3)分析数据

在挖掘数据库建立之后,就要对数据库中的数据进行分析处理:首先根据档案用户ID划分数据,找到每个用户的访问记录集;然后将该用户的访问记录集以一个固定的时间间隔进行分割,找到该用户的每一次访问记录集(我们称这个每一次访问记录集为一个“访问事务”);最后,将所有的访问事务按时间排序,构成进行挖掘的事务集。每一个访问事务相当于访问者对站点的一条访问路径。另外,还需把网页中的文本、图片及其他文件转换成数据挖掘算法的可用形式。

(4)建立模型

建立模型之前需要进行数据准备工作,包括选择预测变量、记录,创建新变量和转换变量。选择适当的变量和记录能大大提高模型的建立效率。在多数情况下,我们还需创建一些新的预测变量(比如一些比值),以增加预测模型的准确性;根据选择的算法和工具需对变量进行转换。在数据挖掘中采用比较多的算法主要有神经网络和决策数算法。

建立模型是个反复寻求最佳模型的过程。我们把挖掘数据库分成两部分:一部分用来进行模型训练,另一部分用来测试模型。我们首先利用训练集建立一个用户模型,然后用测试集对模型进行测试;根据测试结果,对训练数据进行一些修改或新建预测变量,再生成新的用户模型。建立新的用户模型可以使用与上次一样的算法,也可以取用其他算法建模。最后,从建立的几个用户模型中选择一个最有效的模型。

(5)评价和解释

档案用户模型建好后,需评价其实用性和有效性,解释其价值。我们可从原始信息数据库中拿出一定百分比的数据作为测试数据,对建立的模型进行测试。通过对模型给出的结果和原始数据信息进行比较,测量出模型的准确率。若准确率高于既定的标准,就认为这个模型是有效的;若低于既定标准,则需找出错误原因,并重新进行挖掘。

威廉希尔app  档案学栏目