当前位置:360文档网>专题范文 > 公文范文 > NMCC经分20系统总体设计说明书_数据质量(范文推荐)

NMCC经分20系统总体设计说明书_数据质量(范文推荐)

发布时间: 2025-05-14 04:48:51 来源:网友投稿

下面是小编为大家整理的NMCC经分20系统总体设计说明书_数据质量(范文推荐),供大家参考。

NMCC经分20系统总体设计说明书_数据质量(范文推荐)

 

 NMCC 经分 20 系统总体设计说明书_ 数据质量

 统 内蒙古移动经营分析系统 2.0

  集团客户 系统 总体设计 说明书

 2020 年 年 10 月

 本文档及其所含信息为隐秘材料 同时由中国移动集团公司和 NCR〔中国〕共同拥有。

 本文档中的任何部分未经中国移动集团和 NCR〔中国〕书面授权, 不得将材料泄露给第三方,也不得以任何手段、任何形式进行复制与传播 Copyright © 2006 NCR 版权

 保留所有的权益

 目 目

 录 S1

 综述 ............................................................................................................. 3

 1.1

 编写目的 ............................................................................................ 3

 1.2

 读者对象 ............................................................................................ 3

 1.3

 参考资料 ............................................................................................ 3

  2

 系统总体架构 .............................................................................................. 4

 2.1

 数据集市数据质量治理方案 ............................................................... 4

 2.2

 其他模块说明 .................................................................................... 4

 2.3

 数据质量的交互方式 .......................................................................... 4 2.4

 FTP 的轮询方式 ................................................................................ 5

 3

 系统软硬件总体结构 .................................................................................... 3

 3.1

 硬件技术结构 .................................................................................... 3

 3.2

 软件技术结构 .................................................................................... 3

 4

 技术设计 ...................................................................................................... 3

 4.1

 术语说明 ............................................................................................ 3

 4.2

 一样结构 .......................................................................................... 10

 4.3

 建议的结构 ....................................................................................... 11 5

 数据质量检查互交格式定义 ....................................................................... 14

 6

 平台设计 .................................................................................................... 14

 6.1

 设计原那么 ...................................................................................... 13

 6.2

 系统数据接口 .................................................................................. 15

 6.3

 数据转换 .......................................................................................... 17 6.4

 数据加载 .......................................................................................... 17 7

 数据模型 .................................................................................................... 17

 7.1

 逻辑数据模型 .................................................................................. 17

 7.2

 物理数据模型 .................................................................................. 17

 7.3

 数据模型治理 .................................................................................. 18

 1 综述 1.1 编写目的 编写本功能规格说明书的目的,要紧是对内蒙移动数据质量治理系统建设项目的总体设计思想、功能的明确阐述;使用户和软件开发者双方对数据质量治理系统的功能点有一个共同的明白得,为开展数据质量治理系统的开发工作提供指导,保证系统功能满足集团要求和用户需要。

 1.2 读者对象 本文档适合于以下人员阅读和参考:

  开发、测试人员。

  业务开发人员。

  系统分析师。

  系统架构师。

 1.3 参考资料 «中国移动省级经营分析系统规范总册 v2.0» «中国移动省级经营分析系统数据质量治理系统业务技术规范 v2.0.doc»

 2 系统总体架构 2.1 数据集市数据质量治理方案

 2.2 其他 模块 说明  数据接口:是为了保证数据的结构、意义、编码、保持一致。

  数据质量治理:确保从数据源抽取的数据质量。

  数据模型:包括逻辑数据模型和物理数据模型。

 2.3 数据质量的交互方式 • 交互的频率 > 准时时提供 • 交互的方式 > Ftp 文件轮询 • 交互的格式 > 交互的格式为 XML,具体的格式和说明由 Teradata 提供

 2.4 FTP 轮询方式

 3 系统 软硬件总体结构 3.1 硬件总体结构 产品型号 产品名称 配置 数量 厂家及说明 NCR5450 数据仓库服务器 92TB〔裸盘〕 16 节点 NCR/生产系统 NCR5380 数据仓库服务器 12TB〔裸盘〕 5 节点 NCR/生产系统 NCR5350 数据仓库服务器 9TB〔裸盘〕 3 节点 NCR/生产系统 小计:

 103TB〔热备〕 22 节点 NCR/生产系统

 L700 磁带库 8 个 LTO1 驱动器 1 台 NCR-Library SL500 磁带库 18 个 LTO3 驱动器 1 台 NCR-Library IBM P460 ETL 服务器 4CPU,8GRAM,2*73GB 2 台 IBM HP DL630 应用服务器 2 颗 Inter® CPU 1.4GHz,2G 内存 2 台 HP HP rx4640 WEB 服务器 4 颗 Inter® CPU 1.4GHz,4G 内存,2块 36G SCSI 硬盘 2 台 HP-PCServer

 3.2 软件 总体结构 1. NCR 5450/5380/5350 Teradata 数据仓库服务器 操作系统:NCR UNIX SVR4 MP-RAS 数据库系统:NCR Teradata 海量并行处理数据库治理系统 工具:NCR Teradata 公用程序 MultiLoad FastLoad Bteq FastExport Arcmain 2. NCR A16 数据仓库系统治理工作站 操作系统:NCR UNIX SVR4 MP-RAS 工作站治理软件 3. ETL 服务器

 操作系统:IBM AIX5.0 工具:NCR Teradata 公用程序 MultiLoad FastLoad Bteq FastExport Perl ETL Automation 4. OLAP 服务器 操作系统:HP Unix 工具:ESSBASE 多维分析服务器版本 工具:NCR Teradata 公用程序 MultiLoad FastLoad Bteq FastExport Perl ETL Automation

 5. WEB 服务器 操作系统:HP Unix & Windows2000 Server 工具:Hyperion Brio Client 版本与 BEA WEBLogic

 4 技术 设计 内蒙经分系统关键技术设计是依靠 Teradata数据库的 PI 及PARTITION等技术,Teradata 是 Relational Database Management System---RDBMS,可用于UNIX,WINDOWS NT,对应于工业化 ANSI 标准,Teradata 用于大型数据库服务器,支持并发访问,并发操作要求使其有能力处理海量数据,可在单节点或者多节点上运行,是企业级数据库的首选解决方案. 4.1 术语说明 下表说明所使用的专有名词:

 名称 定义 数据库(Database) 数据库(database)是一个区域,其上可建立对象,例如表、视图及宏。表是数据储存的地点,而经由视图及宏可操纵数据的存取能力。

 数据库有配置磁盘空间。

 数据库结构是层次性式架构(hierarchical),子数据库(child databases) 建立在母数据库(parent databases)之下。

 数据库 DBC 是一种专门的数据库,它在系统定义时即已存在,且为分类及字典表(catalogue and dictionary tables)的预设区域。DBC 亦为数据库层次结构的顶层。

 PI 数据分布的机制,数据分布是否平均,直截了当阻碍到查询的效率。

 PARTITION 〔Partitioned Primary Index〕,分区索引,通过建立分区主索引〔PPI〕,从而更好的利用Teradata的强大并行能力,使我们能够在主表里同时储存历史数据和当前数据,也可不能降低效能,

 名称 定义 并降低查询的复杂性。

 用户(User) 用户(user)是一种可登入至系统的专门的数据库。

  每一位用户皆被配置一个严格限制的永久空间,让用户储存个人资料。

 永 久 空 间(Permanent Space) 永久空间 (perm 或 perm space) 为系统中可用以容纳数据库表的磁盘空间总合。永久空间系配置给数据库以便储存数据之用。

 只在一数据库所属于的母数据库(parent database)目前有剩余可用空间时才能配置永久空间给该数据库。

 一开始,Teradata 数据库中的所有空间皆为专门数据库DBC 所拥有。

 Spool 空间(Spool Space) Spool 空间(spool)是数据库系统(DBMS)需要提供给表用以在执行 SQL 陈述指令期间临时储存中间结果的储存量总合。

 预设作为 spool 的空间大小是,最小必须有 25%的可用空间或最大资料表的 1.3 倍,两者取较大者。

 应将此首要规那么视为最低要求,且可视处理程序而改变。在没有 Spool 空间的情形下,查询无法执行 。

 通常 Spool 空间是配置给用户而不是数据库。Spool 的配置并非依照其直截了当母体(immediate parent) 的可用空间,而是一任意总量,用以限制一位使用者所能够执行的工作量。没有spool 的使用者无法执行任何工作,而具有专门大 spool 的使用者几乎能够执行任何复杂的 SQL 工作。

 名称 定义 帐号字符串(Account Strings) 帐号字符串用以识别用户组及用户的系统优先权,它们通常与个别用户组相关而非特定用户,但能够为特定用户建立它们。

 宏(Macro) 宏是一组执行一项工作的 SQL,类似预存程序(stored procedure),但完全是 SQL 程序代码,不包含其它程序代码语言。

  宏储存在数据库中且由用户利用 SQL 命令执行。

 Teradata 数据仓库所在的数据库系统。

 4.2 一样结构 一个称作 DBC 的数据库是 Teradata 数据库中的最高层次。它拥有系统中所有的资源。DBC 数据库中存在有各种系统及名目对象(dictionary objects)。没有任何用户对 DBC 有拥有权。

 DBC 具有其它各种在系统产生时自动建立的数据库,且这些数据库与特定的工程任务及系统爱护任务相关联,例如 SystemFE 及 Crashdump 数据库。对数据库及对象的拥有权是层次性的架构,且继承至其下层之子对象。对较高层或旁系阶层之数据库、视图或宏的存取必须单独给予不同的权益。

 在内蒙移动,在 DBC 用户下建立了一个 NMCCDW 数据库,其下包含了所有关于数据的数据库, 包括数据、视图、宏与用户。NMCCDW 将是内蒙移动数据库治理员的治理员 ID(administrator id),同时拥有 NMCCDW 之下的所有对象。

 利用这种方式,治理员 DBC 可独立出来且不必要每天对它作治理工作。如此就能够保证DBC用户的安全性并能够幸免未经许可即对DBC名目 (catalog) 及其它系统表改变。

 DBC及NMCCDW这两种用户都必须设定特定的权益。数据库治理员(DBAs)应该使用不同的身份登录数据库并用不同的 ID 来执行数据库的治理。

 4.3 建议的结构 数据库层次的最顶层为 DBC,如以下图:

 名称 说明 $NETVAULT_CATALOG BakBone NETVAULT 备份工具 CATALOG 库 CrashDumps CrashDumps 数据库是系统重新激活时,系统内存倾泻(system memory dumps)之储存区域。如此可查看系统重新激活时发生的状

 名称 说明 况,而且关于 NCR 实验室而言是解决问题时专门有用的工具。

 此数据库必须能够储存 3 个 CrashDumps。

 DBCMngr SysAdmin Sys_Calendar Default All Console Public TDPUser 这些全部差不多上体系结构的用户。

 一样而言,这些用户 ID 可不能指定给特定人员,然而会由负责的 DBA 保留,用它建立用户并授予他们存取权。

 Dbqm Teradata Query Management 工具使用库 NETVAULT NETVAULT 工具数据库复原用户,用户能够自行创建 SystemFE 那个数据库存有 NCR 的数据库执行爱护和监督各项活动所需要的各种视图 NMCCDW 获得 DBC 的大部分储备资源,存放经营分析系统基础数据、汇总数据、视图、宏、日志、用户信息等。

 MMART 专题分析数据库 NMART 应用数据库 PData 这是差不多数据(base production data)的存放位置。

 同时也是数据模型的资料表的存放位置

  表是在 LDM 及 PDM 中的资料表。

 只有 DBA 才有权益在那个数据库中建立新表 在某种情形下,也能够删除、更换数据库中数据 SDATA 数据临时区,也称缓冲区 PMART 中间层汇总数据库及应用层数据库

 名称 说明 Temp 在测试工作中所产生的临时资料表在那个地点产生 建立数据库治理员在数据库中建立和删除表,在系统正常运行后仅使用这些表。

 在那个数据库中也能够储存衍生的数据和汇总表,这些表不是LDM/PDM 的一部分,而是依照系统实际需要产生的。

 PView 在那个数据库中储存系统正式运行后的所有的视图。

 这些是差不多视图,数据的视图为一样执行系统作业时执行 PView 对 PData 有 Select 的权益。

 只有 DBA 才能够在此数据库中建立对象。

 ETL 在那个数据库中包含所有能够执行数据转换、备份工作的用户的 ID

  每个作业/脚本都应该有唯独的用户 ID

  这些用户 I...

推荐访问:说明书 总体 质量

版权所有:360文档网 2013-2025 未经授权禁止复制或建立镜像[360文档网]所有资源完全免费共享

Powered by 360文档网 © All Rights Reserved.。备案号:京ICP备13037083号-1