编辑:sx_chengl
2015-07-28
我国企业信息化起步相对较晚,数据仓库技术在国内的发展还处于积累经验阶段。下文是一篇研究生学位论文开题报告,让我们一起来看看具体内容吧!
一、课题来源:
本课题来源于作者在学习和实习中了解到的两个事实,属于自拟课题。
其一,作者在2011年7月在XXX公司调研,了解到现如今各行业都面临着数据量剧增长,并由此带来业务处理速度缓慢,数据维护困难等问题。为了应对此挑战,很多企业开实施大数据发展战略。现如今的大数据发展战略可以概括为两类,一类是垂直扩展。即采用存储容量更大,处理能力更强的设备,此种方式成本较大,过去很多大公司一直采用此种方法处理大数据。但自从2004年Google发布关于GFS,MapReduce和BigTable三篇技术论文之后,云计算开始兴起,2006年Apache Hadoop项目启动。随后从2009年开始,随着云计算和大数据的发展,Hadoop作为一种优秀的数据分析、处理解决方案,开始受到许多 IT企业的关注。相较于垂直扩张所需的昂贵成本,人们更钟情于采用这种通过整合廉价计算资源的水平扩展方式。于是很多IT企业开始探索采用Hadoop框架构建自己的大数据环境。
其二,作者自2013年4月在XXX实习过程中进一步了解到,因为关系数据库在存储数据格式方面的局限,以及其Schema机制带来的扩展性上的不便,目前在大部分的大数据应用环境中都采用非结构化的数据库,如列式存储的Hbase,文档型存储的MangoDB,图数据库neo4j等。这些非结构化数据库因为可扩展性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解决方案。
二、研究目的和意义:
现如今,数据已经渗透到每一个行业,成为重要的生产因素。近年来,由于历史积累和和数据增长速度加快,各行业都面临着大数据的难题。事实上,大数据既是机遇又时挑战。合理、充分利用大数据,将其转变为海量、高增长率和多样化的信息资产,将使得企业具有更强的决策力、洞察发现力和流程优化等能力。因此,很多IT企业都将大数据作为其重要的发展战略,如亚马逊、FaceBook已布局大数据产业,并取得了骄人的成绩。事实上,不止谷歌、易趣网或亚马逊这样的大型互联网企业需要发展大数据,任何规模的企业都有机会从大数据中获得优势,并由此构建其未来业务分析的基础,在与同行的竞争中,取得显著的优势。
相较于大型企业,中小企业的大数据发展战略不同。大公司可以凭借雄厚的资本和技术实力,从自身环境和业务出发,开发自己的软件平台。而中小企业没有那样的技术实力,也没有那么庞大的资金投入,更倾向于选择一个普遍的、相对廉价的解决方案。本文旨在分析大数据环境下数据库的特点,结合当下流行的Hadoop框架,提出了一种适用于大数据环境的数据仓库的解决方案并实现。为中小企业在大数据环境中构建数据仓库提供参考。其具体说来,主要有以下三方面意义:
首先,目前主流的数据库如Oracle、SQL Server都有对应自己数据库平台的一整套的数据仓库解决方案,对于其他的关系型数据库如MySQL等,虽然没有对应数据库平台的数据仓库解决方案,但有很多整合的数据仓库解决方案。而对于非结构化的数据库,因其数据模型不同于关系型数据库,需要新的解决方案,本文提出的基于Hive/Pentaho的数据仓库实现方案可以为其提供一个参考。
其次,通过整合多源非结构化数据库,生成一个面向主题、集成的数据仓库,可为大数据平台上的联机事务处理、决策支持等提供数据环境,从而有效利用数据资源辅助管理决策。
再次,大数据是一个广泛的概念,包括大数据存储、大数据计算、大数据分析等各个层次的技术细节,本文提出的“大数据环境下的数据仓库解决方案及实现“丰富了大数据应用技术的生态环境,为大数据环境下的数据分析、数据挖掘等提供支撑。
三、国内外研究现状和发展趋势的简要说明:
本文研究的主体是数据仓库,区别于传统基于关系型数据库的数据仓库,本文聚焦大数据环境下基于非结构数据库的数据仓库的构建与实现。因此,有必要从数据仓库和大数据环境下的数据库两方面进行阐述。
(一) 数据仓库国内外研究现状
自从Bill Inmon 在1990年提出“数据仓库”这一概念之后,数据仓库技术开始兴起,并给社会带来新的契机,逐渐成为一大技术热点。目前,美国30%到40%的公司已经或正在建造数据仓库。现如今随着数据模型理论的完善,数据库技术、应用开发及挖掘技术的不断进步,数据仓库技术不断发展,并在实际应用中发挥了巨大的作用。以数据仓库为基础,以联机分析处理和数据挖掘工具为手段的决策支持系统日渐成熟。与此同时,使用数据仓库所产生的巨大效益又刺激了对数据仓库技术的需求,数据仓库市场正以迅猛的势头向前发展。
我国企业信息化起步相对较晚,数据仓库技术在国内的发展还处于积累经验阶段。虽然近年来,我国大中型企业逐步认识到利用数据仓库技术的重要性,并已开始建立自己的数据仓库系统,如中国移动、中国电信、中国联通、上海证券交易所和中国石油等。但从整体上来看,我国数据仓库市场还需要进一步培育,数据仓库技术同国外还有很大差距。为此,我国许多科技工作者已开始对数据仓库相关技术进行深入研究,通过对国外技术的吸收和借鉴,在此基础上提出适合国内需求的技术方案。
(二) 非结化数据库国内外研究现状
随着数据库技术深入应用到各个领域,结构化数据库逐渐显露出一些弊端。如在生物、地理、气候等领域,研究面对的数据结构并不是传统上的关系数据结构。如果使用关系数据库对其进行存储、展示,就必须将其从本身的数据结构强行转换为关系数据结构。采用此种方式处理非结构数据,不能在整个生命周期内对非关系数据进行管理,并且数据间的关系也无法完整的表示出来。在此背景下,非结构化数据库应运而生。相较于关系数据库,非结构数据库的字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成。如此,它不仅可以处理结构化数据,更能处理文本、图象、声音、影视、超媒体等非结构化数据。近年来,随着大数据兴起,非结构数据库开始广泛应用,以支持大数据处理的多种结构数据。
目前,非结构化的数据库种类繁多,按其存储数据类型分,主要包含内存数据库、列存储型、文档数据库、图数据库等。其中,常见的内存数据库有SQLite,Redis,Altibase等;列存储数据库有Hbase,Bigtable等;文档数据库有
MangoDB,CouchDB,RavenDB等;图数据库有Neo4j等。近年来,我国非结构数据库也有一定发展,其中最具代表的是国信贝斯的iBASE数据库。可以预见在不久的将来,伴随这大数据的应用,非结构数据库将会得到长足的发展和广泛的应用。
以上是由编辑老师为大家整理的研究生学位论文开题报告,如果您觉得有用,请继续关注威廉希尔app 。
相关推荐:
标签:研究生开题报告
威廉希尔app (51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。