您当前所在位置:

电子文件长期保存格式浅析

2013-01-15

要作为文本型电子文件的归档格式,马春茂①认为应该符合下列条件:(1)应该是公开的格式,不依赖特定的系统和软件存在,能够在可以预见的时间内被正常读取;(2)应该保持文件生成时的排版格式,即使经过办公软件的不断升级,也能输出同纸质文件一样的格式;(3)应该便于数据交换、便于查找和检索;(4)应能保证电子文件在处理过程中不被篡改和窃取。

为了对数字资源实施长期保存,对保存图像格式的选择尤其重要。叶新民②认为应满足格式使用的标准化和广泛性;格式应是公开的,而非私有的,而且应公开已出版的技术资料;格式应支持元数据;格式应对存储介质无依赖性等要求。

对于数码录音的电子文件长期保存格式,张文浩③认为应支持真实性验证技术、数码音质无损、文件格式开放透明、不绑定软硬件、格式自描述、格式自包含、易于存储、格式紧凑、信息安全、代价最小等要求。

数字摄像(DV) 、数字电视(DTV) 和网络视频系统的广泛应用以及对现有模拟视频的数字化, 视频电子文件的数量和类型不断丰富。项文新等④提出从保证视频文件的原真性和档案保管利用的便捷性出发选择合适的视频电子文件归档格式,认为视频电子文件应尽可能保证视频文件的原真性。

2、综合性分析

对于长期保存人类文化遗产的档案馆、图书馆, 最关心的是数字信息的内容不得丢失。刘家真⑤针对电子文件保存格式的选择问题,认为该格式能在不同的环境下使用;应是通用的、非专用的格式;支持数据从专用格式的环境中移出;最好是标准格式;被业界或用户广泛支持;具有可扩展性;可真实完整地被用户读出并理解, 无论何时何地, 用户所查到的该文件信息都与该文件最初情况完全一致;具有自身的可证明性;具有可评价性。

档案是历史的真实记录,具有凭证价值与情报价值。李泽锋⑥认为档案数字化过程中选用电子文件格式应考虑:保持档案原貌,利于网络平台下的传输交流,具有一定的标准性,具有较好的通用性和可移植性,选用电子格式的支持软件应支持数据从专用格式中方便地移出。

为了应对电子文件长期保存的需求,Adrian Brown⑦对电子文件长期保存格式的选择标准进行了积极的探讨,认为应具备开放标准、普遍性、稳定性、对元数据支持、互操作性、可生存性、真实性、可处理性、固定显示等9个条件。

3、笔者的理解

电子文件的格式选择是由电子文件创建过程的操作要求和电子文件长期存取的要求所决定的。综合各位学者的观点后,笔者认为电子文件长期保存格式的选择标准应具有以下几点:(1)开放性。格式开放,有公开发表的相应标准和技术规范,有与产品无关的技术专家组和标准化组织支持该格式。(2)标准性。该格式被广泛使用,具有自由使用的技术规范,可转换性高,支持保存元数据。(3)稳定性。不会随着时间的推移而作重大的变更,而且新版本的格式也应该能够做到逆兼容。(4)广采性。数字格式的广采性包括个人电脑随机软件包、Web浏览器的本地化支持、数字产品格式易转换等。软件厂商对创建良好和广泛使用的格式往往要比仅仅瞄准新市场的格式具有更宽泛和更长久的支持。流行格式会尽可能多地受到软件厂商的支持,人们可能更喜欢采用。(5)软硬件平台的独立性。被多种操作系统和应用软件支持。支持多种存储技术,或与存储技术无关。当用户不能使用指定产品软件时,可使用已有的插件读取。使用与设备无关的颜色规范实现准确打印和再现,不必考虑软硬件平台。(6)真实性。电子文件的真实性要求保留“原貌”(例如字体、颜色和外观),数据迁移要求选取的文件格式能够保留文件“原貌”。(7)可利用性。要确保电子文件可读、可利用。

四、几种适于长期保存的电子文件格式

1、 PDF/A格式

PDF格式规范已经公开,并可免费获取,具有广泛的支持性。该格式具有与平台、字体无关的特点,解除了电子文件与操作系统的依赖关系,用户可以通过它的通用浏览器Adobe Reader在Windows、UNIX、Mac等任一系统平台上原版原式地读取PDF文档,不受操作系统、网络环境、应用程序的版本、字体的限制,从而从电子文件自身的角度保证了电子文件的可读性。PDF格式所具有的高度兼容性使用户可以轻松地将任何文档原版原式地转换成PDF文档,进而固化信息,使之不易更改,保持了原文档信息内容和结构的完整、真实,为不同软件生成的电子文件提供了一个可完整迁移其信息内容的统一文件格式。PDF/A-1a实现了对文档逻辑结构的保存和以自然阅读顺序保存文本。PDF/A-1b可实现对文本和附加内容的正确显示。在各国政府机构包括美国、英国、德国、新加坡、印度、澳大利亚等的电子政务领域中,PDF格式也被广泛应用。综合来说,PDF/A格式的特点是支持数字签名、格式开放、不绑定软硬件、格式自包含、格式自描述、固定显示、不包含加密、可向其他文本格式转换等。

2、TIFF格式

TIFF(标记图像文件格式)是由Aldus和Microsoft公司为桌面出版系统研制开发的一种灵活的位图图像格式,用于应用程序之间和计算机平台之间交换文件。实际上已被所有绘画、图像编辑和页面排版应用程序所支持,而且几乎所有桌面扫描仪都可以生成TIFF图像。TIFF支持多种编码方法,其中包括RGB无压缩、RLE压缩、LZW压缩、ZIP压缩、CCITT压缩等,6.0版本又增加了JPEG压缩选项。TIFF 格式由于存储图像质量高非常有利于原稿的复制。另外,所有绘画、图像编辑和页面排版应用程序以及大多数扫描仪对TIFF 格式都提供良好的支持,这使得TIFF格式成为数字图像处理的最好选择。

3、JPEG2000格式

JPEG2000于2001年正式成为国际标准。JPEG2000完全采用小波变换代替余弦变换,与JPEG相比,具备了更高的压缩比以及更多新功能。在文件大小相同的情况下,JPEG2000压缩的图像比JPEG质量更高,其压缩率比JPEG高30%左右,精度损失更小。

JPEG2000的特点是⑧:

(1)同时支持有损和无损压缩,而JPEG只能支持有损压缩。(2)能实现渐进传输,先传输图像的轮廓, 然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。(3)支持对图像中细节较多或较为感兴趣的区域进行高精度的无损编码、很强的容错性、支持水印等。(4)JPEG2000的许多优点和新的功能都是建立在复杂的计算与较大的缓存基础上,因此其速度与JPEG相比要慢许多。

4、FLAC格式

FLAC 属于无损音频压缩文件格式(文件名为.flac)。⑨FLAC 格式文件较小,便于播放。OGG 计划支持FLAC,也可将FLAC 音频数据封装在OGG 传输层中,生成OGG FLAC 格式文件(文件名为.ogg)。OGG FLAC 格式文件较大(比OGG Vorbis格式文件大得多),便于传输、编辑、播放。该格式的特点是支持真实性验证技术、数码音质无损、文件格式开放透明、不绑定软硬件、文件格式自描述、格式自包、易于存储、信息安全。

5、MPEG格式