硕士开题报告怎么写
一、题目来源:
本题目来源于作者在学习和实践中了解到的两个事实,属于自拟题目。
一、笔者2011年7月在XXX公司调研,了解到各行业都面临着数据量剧增,带来业务处理速度慢,数据维护难等问题。为了应对这一挑战,许多企业实施了大数据发展战略。今天的大数据发展战略可以概括为两类,一类是纵向扩张。
也就是使用存储容量更大、处理能力更强的设备,成本很高,过去很多大公司一直在用这种方法处理大数据。但自从2004年Google发布了GFS、MapReduce、BigTable三篇技术论文后,云计算开始兴起,2006年Apache Hadoop项目启动。
2009年以来,随着云计算和大数据的发展,Hadoop作为一种优秀的数据分析和处理解决方案,受到了众多IT公司的关注。相对于纵向扩展的昂贵成本,人们更喜欢采用这种通过整合廉价计算资源的横向扩展方式。于是很多IT公司开始探索Hadoop框架来搭建自己的大数据环境。
其次,笔者从2013年4月在XXX实习期间进一步了解到,目前大部分大数据应用环境都采用非结构化数据库,如Hbase用于列存储,MangoDB用于文档存储,Secondary用于图形数据库。
这些非结构化数据库因其可扩展性强、资源利用率高、高并发、响应速度快等特点,在大数据应用环境中得到了广泛应用。但是这个应用只解决了前端的业务处理。为了利用大数据实现商业智能,需要为决策支持系统和在线分析应用提供一个数据环境——数据仓库。因此,导师指导作者拟出本课题,研究基于Hadoop框架的数据仓库解决方案。
二、研究的目的和意义:
如今,数据已经渗透到每个行业,成为重要的生产要素。近年来,由于历史积累和数据加速增长,所有行业都面临着大数据的问题。事实上,大数据既是机遇也是挑战。合理地充分利用大数据,将其转化为海量、高增长、多元化的信息资产,将使企业拥有更强的决策力、洞察力和发现力以及流程优化力。
因此,许多IT公司将大数据作为其重要的发展战略。例如,亚马逊和脸书已经布局大数据产业,并取得了显著成效。事实上,不仅谷歌、易贝或亚马逊等大型互联网公司需要发展大数据,任何规模的企业都有机会从大数据中获得优势,从而建立自己未来业务分析的基础,并在与同行的竞争中获得显著优势。
与大型企业相比,中小企业的大数据发展战略不同。大公司可以依靠雄厚的资金和技术实力,从自身的环境和业务出发,开发自己的软件平台。中小企业没有这样的技术实力和巨大的资金投入,更倾向于选择通用的、相对便宜的解决方案。
本文旨在分析大数据环境下数据库的特点,结合目前流行的Hadoop框架,提出一种适合大数据环境的数据仓库解决方案并加以实现。为中小企业在大数据环境下构建数据仓库提供参考。具体来说,它有以下三层含义:
首先,目前主流数据库如Oracle、SQL Server都有一套完整的数据仓库解决方案,对应自己的数据库平台。对于MySQL等其他关系数据库,虽然没有对应数据库平台的数据仓库解决方案,但是有很多集成的数据仓库解决方案。
对于非结构化数据库,由于其数据模型不同于关系数据库,需要新的解决方案。本文提出的基于Hive/Pentaho的数据仓库实现方案可以为it提供参考。
其次,通过整合多源非结构化数据库,可以生成面向主题的、集成的数据仓库,可以在大数据平台上提供在线事务处理和决策支持的数据环境,从而有效利用数据资源辅助管理决策。
再次,大数据是一个宽泛的概念,包括大数据存储、大数据计算、大数据分析等各个层面的技术细节。本文提出的“大数据环境下的数据仓库解决方案及实现”丰富了大数据应用技术的生态环境,为大数据环境下的数据分析和数据挖掘提供了支撑。
三、简述国内外研究现状和发展趋势:
本文的主体是数据仓库,它不同于传统的基于关系数据库的数据仓库。本文主要研究大数据环境下基于非结构化数据库的数据仓库的构建和实现。所以有必要从大数据环境下的数据仓库和数据库两个方面来阐述。
(1)国内外数据仓库的研究现状:
自从比尔·恩门在1990中提出“数据仓库”的概念后,数据仓库技术开始兴起,给社会带来了新的机遇,并逐渐成为一大技术热点。目前,美国有30%到40%的公司已经建立或正在建立数据仓库。如今,随着数据模型理论的完善、数据库技术、应用开发和挖掘技术的不断进步,数据仓库技术不断发展,并在实际应用中发挥了巨大的作用。
基于数据仓库、联机分析处理和数据挖掘工具的决策支持系统日趋成熟。同时,使用数据仓库的巨大好处刺激了对数据仓库技术的需求,数据仓库市场发展势头迅猛。
我国企业信息化起步较晚,数据仓库技术在我国的发展还处于积累经验的阶段。虽然近年来国内大中型企业已经逐渐意识到使用数据仓库技术的重要性,并开始建立自己的数据仓库系统,如中国移动、中国电信、中国联通、上海证券交易所、中国石油等。
但总体来看,中国的数据仓库市场有待进一步培育,数据仓库技术与国外还有较大差距。为此,中国许多科技人员开始对数据仓库相关技术进行深入研究,通过吸收和借鉴国外技术,提出适合国内需求的技术解决方案。
(2)国内外非聚集数据库的研究现状:
随着数据库技术在各个领域的深入应用,结构化数据库逐渐显现出一些弊端。比如在生物、地理、气候等领域,研究面临的数据结构不是传统的关系型数据结构。如果使用关系数据库来存储和显示它,则必须将其从自己的数据结构强制转换为关系数据结构。
这样处理非结构化数据,无法管理全生命周期的非关系数据,数据之间的关系也无法完全表达。在这种背景下,非结构化数据库应运而生。与关系数据库相比,非结构化数据库的字段长度是可变的,每个字段的记录可以由可重复或不可重复的子字段组成。
这样不仅可以处理结构化数据,还可以处理文本、图像、声音、影视、超媒体等非结构化数据。近年来,随着大数据的兴起,非结构化数据库被广泛用于支持大数据处理的各种结构化数据。
目前,非结构化数据库种类繁多,主要包括内存数据库、列存储数据库、文档数据库、图形数据库等。其中,常见的内存数据库有SQLite、Redis、Altibase等。列存储数据库包括Hbase、Bigtable等。文档数据库有MangoDB、CouchDB、RavenDB等。图形数据库包括二次等。
近年来,中国的非结构化数据库也有了一定的发展,其中最具代表性的是国鑫贝斯的iBASE数据库。可以预见,在不久的将来,随着这种大数据的应用,非结构化数据库将会得到极大的发展和广泛的应用。