您当前所在位置:

基于数据挖掘的数字档案信息管理研究

2012-12-27

1、资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究大学档案用户的信息需求出发,数据挖掘为大学档案馆全面掌握和准确理解档案用户的信息需求提供了方法。

(1) 利用Web访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。

(2) 收集大学档案网web服务器保留的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。

2、从建设大学档案馆馆藏信息资源出发,数据挖掘为大学档案馆提供了选择一条科学发展道路的重要依据。

(1) 利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。

(2) 在大学档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。

3、从做好大学档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。

(1) 在提供利用环节中,对用户每次借阅的信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,这样可以进一步优化馆藏信息。

(2) 开展大学档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为未来档案工作的趋势进行预测。

三、数据挖掘在管理类数据中的应用

大学档案馆的管理类数据包括:智能监控系统、消防系统、温湿度控制系统、智能密集架、数据管理系统、数据利用系统等在日常工作产生大量的管理类数据。我们得用数据挖掘工具在这类看似无用的数据中提取有价值的知识并运用到大学档案馆工作中,并在大学档案馆的现代化建设中发挥作用。

大学档案馆档案工作的重点是为师生服务,以服务为中心开展各项工作,如何使用先进的工具,提高服务的质量是一直困扰我们的难题。数据挖掘为大学档案馆档案工作的智能化、个性化、精品化提供了行之有效的方法。在智能检索系统可调用用户兴趣模型,自动修正检索策略并可依用户兴趣将检索结果迅速聚类和分类,并条理化地排序出来;对于设计院、社科院等科研型档案用户,可借助数据挖掘开展针对性的档案信息挖掘,并将研究成果以概述、成果报告等形式提供给用户。这样不光实现了大学档案的二次开发,也会给用户带来意外的惊喜。

网络最初只是科学家与研究人员之间交换文件的软件,把因特网用于教育和研究可以得到政府的补贴。在中国,大学有拨款,图书馆有大学支持,数字图书馆的网络档案馆是不赢利的,产出是教学和科研的长期社会效益。今天,因特网已经越来越商业化了,网络在数字经济中已成为极具潜力的技术投资对象。大学数字图书馆也可以考虑建立以赢利为目的的网络档案库,采用网络商务中的一些商务模式,例如网络广告、旗帜广告、赞助广告、订阅、B2C等。收入可用于大学数字图书馆网络档案馆建设的滚动发展。目前人们对这些处于萌芽中的经济模式认识甚少。管理网络的公共政策制定主体是政府部门,推行电子政务,开发网络资源,促进从文字印刷向网络出版的转移是当前相关政府部门的重要任务。大学的政策、态度和措施对数字图书馆的发展至关重要。市场手段和政策平衡是网络档案馆建设,网络档案库运行,网上内容传递和保存应该和必须考虑的。