作为BI(商业智能)系统的核心应用,资料仓储引擎的选择是决定整个BI系统建设成功与否的关键。
成功的资料仓储(Data Warehousing)是以完成企业的决策支持为其目标,实现企业的商业价值为其目的。通常情况下,我们把资料仓储定义为应用数据库技术实现商业智能的一个完整解决方案,而不只是一个简单的数据库引擎,因此在进行资料仓储核心数据库引擎选择的时候,必须考虑到整个BI(Business Intelligence)系统的建设目标。
资料仓储把机构内不同来源的信息汇集到一个单一的资料仓储中,进行企业内部各种报表的处理,可以为公司跨部门或跨产品的决策提供重要参考依据。在大多数情况下,使用者事先已经对报表中的问题有所了解,因此数据库的结构可以根据问题的要求进行优化,即使资料查询人员要求的资料量极为庞大,其处理性能仍然非常快速。
随着业务的发展和变化,企业研究分析人员和企业的决策者对业务情况的了解和分析需求,也在不断的变化。对销售策略的变动,需要资料仓储系统准确及时地对这种动态的查询需求做出反应,称为实时查询的处理功能。
随着资料仓储应用的发展,决策者关心的重点也发生了转移,从“发生了什么”转变为“为什么会发生”,需要更详细的资料进行各种角度复杂的组合分析。这种分析通常涉及到较大的资料量,并且牵涉到多个大型资料表之间的关联操作。只有通过这种复杂的分析,才能够发现各种具有价值的商业信息。
当一个公司的决策过程已经量化,对经营动态的情况和原因有所体验的时候,下一步就是要将信息运用于预测分析。很明显地,掌握公司即将发生的动向,意味着更积极地管理并有效实施公司的策略。预测需要运用资料采探技术,通过创建各种分析模型,发现商业运作的各种规律,并且对各种商业运作行为以及其产生的影响进行预测性的分析。
选择资料仓储引擎的时候,首先应该考虑的是资料仓储应用属于OLAP型的应用,和OLTP型的应用有着实质上的差别。举例说来,OLTP型应用中进行客户信息的管理与更新,只需要按照客户创建好相关的索引机制,利用索引完成客户记录的定位和更新。而OLAP型系统中则需要完成从区域、性别、学位、年龄、职业等多种分析角度完成对客户特征分布的分析,这种规律和交叉组合的分析方法,不是创建一个或者多个索引就可以达到性能提高的要求的。
因此在进行资料仓储核心数据库引擎的选择时,首先应该考虑到的是该数据库引擎是针对OLTP型应用设计,还是针对OLAP型应用设计。在不同类型的应用中市场占有率如何。其次在资料仓储引擎的选择中,还应该考虑到需要平台的规模以及平台的可扩展性。
选择资料仓储平台的过程中,会有三个因素对其产生直接的影响。这三个因素是:企业资料量的大小、企业业务应用的复杂程度、企业同时客户的数量。
任何一个因素的增长都会导致企业所需要的资料仓储平台规模的扩大,所以这三个因素直接决定了企业的资料仓储的规模。但在其中具有决定性影响的则是资料量的大小。在现在这个信息爆炸的时代,资料量出现了超常规的增长模式,选择具有线性可扩展性能的资料仓储平台,是投资建置BI系统保证成功的关键因素。基于MPP(大量平行处理)架构的可扩展性,是进行资料仓储核心引擎选择时的另外一个关键因素。