什么是数据仓库,它有何基本特征?
数据仓库是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。该定义全面地刻画了数据仓库的四个基本特征。(1)数据仓库是面向主题的。与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。(2)数据仓库的数据是集成的。数据仓库的数据是从原有的分散的数据库数据中抽取来的。数据进入数据仓库之前,必然要经过统一、综合与整理,为达到此目的需要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等。(3)数据仓库的数据是不可更新的。数据仓库的数据主要供企业所决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容。是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。(4)数据仓库的数据是随时间不断变化的。数据仓库的数据是随时间的变化不断变化的。主要表现在三方面:①不断追加联机事务处理中新生成的数据;②不断删去旧的数据内容;③对大量综合数据定期进行重新综合。