再现理想 发表于 2015-1-16 22:27:40

MSSQL网页设计电信企业介入合作的利器-数据堆栈和数据...

支持多线程,充分利用CPU资源数据电信企业介入合作的利器-数据堆栈和数据发掘
基于Sybase的广东电信数据堆栈办理计划

广东电信迷信手艺研讨院

  1概述

  跟着电信市场的开放,合作将愈来愈剧烈。利润的下降使得必需从集约的谋划变化到集约的谋划,同时谋划决议必要尽量多的定量的根据和尽量快的速率。一切这些必要手艺上的撑持----数据堆栈和数据发掘广东省电信迷信手艺研讨院是华南区域通讯手艺撑持及科研开辟的最高手艺部门,环绕保证通讯年夜网运转平安、高效和通讯市场的需求而举行体系保护撑持、网管体系开辟、多媒体研讨、收集手艺与市场研讨、计费体系研讨与开辟、职员培训和计量检测等七个方面的事情。研讨院今朝具有一支900多人的老态龙钟、气力薄弱的研发步队。

  研讨院开辟的Thinker-BC2000多媒体网综合营业办理体系是一套一致的综合营业办理体系。它为电信运营商和各级ISP供应一个不乱而天真的营业支持平台。该平台可以供应一切的多媒体数据通讯基础营业及各类增值服务,该平台具有极强的可扩大性,具有疾速的新营业天生、推行才能。体系可以天真地界说各项服务的资费政策,及各项营业的绑缚发卖优惠战略,并对各项服务供应正确、及时的计费功效。个中的数据堆栈决议撑持体系是基于Sybase的数据堆栈办理计划开辟的。营业谋划决议者能够使用这个体系疾速正确地懂得到各项营业的开展情形、为进一步的决议撑持事情供应坚固的基本。

  2需求次要特性

数据量复杂
今朝,广东公家多媒体通讯网拨号用户总数已到达70万。依据营业需求剖析,广东省163/169网到2002岁尾的用户总数将到达800万以上,个中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将到达1万户以上。在这些大批的数据面前埋没着很多主要的信息。
营业布局庞大
体系的终极用户是电信外部的各个部门,因而终极用户的需求不尽不异。
常常变更
营业战略不休变更。体现为资费政策的不休变更。
  3计划先容

  Thinker-BC2000多媒体网综合营业办理体系的数据堆栈体系模子以下图所示:

  
3.1体系软件平台

  数据堆栈的实行是一个相称庞大的历程,次要包含五个部分的内容:数据堆栈的计划建模、数据转换与集成、数据存储与办理、数据的剖析和展示和数据堆栈的保护和办理。

  Sybase供应了掩盖全部数据堆栈创建周期的一套完全的产物包:WarehouseStudio,它包含数据堆栈的建模、数据集成和转换、数据存储和办理、元数据办理和数据可视化剖析等产物。以下申明了我们是怎样分离Sybase的产物来做数据堆栈的计划与开辟。
数据堆栈的计划、建模
  数据堆栈的计划事情关于决议撑持体系起着相当主要的感化,它必要依据决议需求断定主题,从数据源到数据提交,对数据堆栈的数据构造举行逻辑布局的计划,还要依照营业用户最能了解的体例构造和供应信息。

  在这个阶段,我们利用了PowerDesignerWarehouseArchitect。WarehouseArchitect是个高度优化的数据库工具,普遍用于数据源的逆向工程、建模、数据堆栈计划计划,以顺应每一个营业需求。经由过程对逻辑计划、物理计划和使用建模举行集成,WarehouseArchitect便利了数据堆栈的开辟和完成。
数据转换与集成
  在举行数据堆栈的创建时,最年夜的应战之一是怎样将原始营业数据转化为分歧的格局,使之更好地为决议撑持服务。这包含对已无数据的正确性和分歧性举行查验、污染,将数据举行转化、提取、转换、装载到数据集市或数据堆栈和对其举行按期更新和办理。PowerMart作为数据抽取工具,从各类异够的数据源中抽取数据,在数据抽取历程,用户能够依据分歧的抽取阶段,天真定制各类数据抽取流程,并准时地将数据加载到数据堆栈中。

  PowerMart是一个集成的软件产物套件,用于制作和办理数据集市和剖析使用。PowerMart托付了一个开放的可伸缩的办理计划,次要定位于数据集市完全的性命周期和剖析使用开辟及产物化的办理,可以撑持多种平台上疾速变更的大批数据作为数据来历,举行庞大的转换处置和撑持高速的数据加载。其metadatarepository可以和谐并驱动一系列的中心功效,包含抽取、转换、加载和办理等。

  PowerMart的图形化用户接口匡助数据堆栈办理职员很简单的计划庞大的source-to-target的映照,然后能够由PowerMart壮大的服务器来主动地实行。
数据存储与办理
  数据堆栈的存储能够选用多维数据库,也能够选用干系型数据库或别的特别的存储体例。数据的存储要包管数据的平安性、完全性、分歧性,同时还要具有庞大的剖析查询的高效性。

  我们选用了Sybase的数据堆栈产物AdaptiveServerIQ。AdaptiveServerIQ是一个干系型数据库,为高功能决议撑持和数据堆栈的创建而举行了优化。IQ中的关头手艺是纵向数据存储(经由过程列而不是经由过程行来举行)、Bit-Wise查询索引和数据紧缩。
数据剖析和展示
  联机剖析处置(OLAP)是一个剖析处置手艺,它从企业的数据汇合中搜集信息,并使用数学运算和数据处置手艺,天真、交互式地供应统计、趋向剖析和展望呈报。经由过程多种OLAP工具对数据堆栈中的数据举行多维剖析、汇总,构成图表或报表的情势,使决议者能够明晰、直不雅地看到剖析了局,这恰是数据堆栈体系所要到达的目标。

  数据堆栈的开辟使用次要有布局计划、数据会合构造和办理、数据的疾速高效会见等。个中数据的会见一样平常都是由较为成熟的营业智能工具完成,因而分歧于OLTP体系,数据堆栈体系的前端开辟编程量是对照小的,可是其保护事情的工夫跨度要年夜,由于决议撑持使用的随便性较强,不成能再象营业体系那样流动一个一致的操纵形式。

  BusinessObjects作为较早进进中国市场的营业智能供应商,其产物操纵精简、功效丰厚,而且有直不雅易懂的前端展示元数据办理部分,在这个办理计划中与IQ的高速查询效力相得益彰。
数据堆栈的保护和办理
  元数据是关于数据的数据,可以暗示、界说数据的意义及体系各构成部件之间的干系的数据,它包含关头字、属性、数据形貌、物理数据布局、源数据布局、映照及转换划定规矩、综合算法、代码、缺省值、平安请求及数据时限等。办理好元数据是办理数据堆栈的关头。

  Sybase的WarehouseControlCenter经由过程对元数据堆栈的会合办理,供应了数据堆栈办理计划的包管手艺。从计划和开辟到完成到终极用户会见,由工具和数据库发生的对元数据的麋集型集成和办理包管了真正企业级数据堆栈的创建。WarehouseControlCenter是基于Intellidex手艺的为数据堆栈开辟职员供应的数据堆栈元数据办理工具,可以在数据堆栈情况下举行数据收罗、捕获、存储、办理和公布逻辑的、物理的和高低文相干的信息,而不必往管它的物理存储地位是在团结数据堆栈上、散布式数据堆栈上仍是两者兼有。营业用户能够扫瞄依据其需求而天生的元数据工具,乃至可使用公布和挂号功能哀求或选择附加功能。

  3.2体系硬件平台
数据堆栈服务器:
sunE5500/8cpu/4GRAM/18G硬盘
运转SybaseIQ。数据迁徙服务器:
IBMNetfinity7600intelPIII550/4cpu/1Gram/36.4GhdNT4
运转PowerMartServer办理Web服务器两台:
IBMNetfinity7600intelPIII550/4cpu/1Gram/36.4GhdNT4
分离运转BOWebIntelligence和WarehouseControlCenterServer。存储收集:
接纳Veritas的SAN体系
  3.3体系次要功效
数据堆栈与决议撑持体系对在线事件处置使用和在线统计剖析使用举行无效地断绝。包管了营业办理体系在线事物处置的平安、不乱、牢靠、高效地运转,也确保了决议撑持体系可以疾速实时地猎取统计数据。省中央和地市营业办理职员可以每个月依照请求天生事后界说好的尺度统计报表。营业剖析职员经由过程十分复杂易用的图形界面,可以疾速正确地举行语义层查询并把所需的营业数据、信息和剖析了局以丰厚的情势疾速地展示出来,为向导的决议供应正确的根据。供应数据发掘功效,发掘出潜伏的影响营业开展的要素。
为客户办理体系供应服务,为客户供应疾速的账单及各类服务清单查询。并供应发掘年夜客户的手腕。

  4停止语

  我们已在广东视聆通和福建163网上,利用Sybase的数据堆栈办理计划,乐成实行了数据堆栈体系,而且基于BO(BusinessObject)开辟了统计剖析报表体系。

  今朝,正在建立广东省新一代的多媒体网综合营业办理体系,个中包含新版本的数据堆栈体系。而这个数据堆栈体系也是接纳Sybase的数据堆栈办理计划。
修复过程包含最多4个阶段,在下面描述。在你开始前,你应该cd到数据库目录和检查表文件的权限,确保他们可被运行mysqld的Unix用户读取(和你,因为你需要存取你正在检查的文件)。如果它拒绝你修改文件,他们也必须是可被你写入的。

冷月葬花魂 发表于 2015-1-19 13:13:47

但是随着数据量的增大,这种成本差距会逐渐减小,趋于相等。(500万数量级只相差10%左右)

再见西城 发表于 2015-1-26 07:50:49

再开发调试阶段和OLAP环境中,外键是可以建立的。新版本中加入了SETNULL和SETDEFAULT属性,能够提供能好的级联设置。

莫相离 发表于 2015-2-4 13:43:52

需要注意的一点,也是我使用过程中发现的一个问题。在建立function->schema->table后,如果在现有的分区表上建立没有显式声明的聚集索引时,分区表会自动变为非分区表。这一点很让我纳闷。

变相怪杰 发表于 2015-2-28 10:45:41

在select语句中可以使用groupby子句将行划分成较小的组,然后,使用聚组函数返回每一个组的汇总信息,另外,可以使用having子句限制返回的结果集。

飘飘悠悠 发表于 2015-3-9 22:51:25

原理很简单,对要求长时间计算某一时间点的报表生成和防用户操作错误很有帮助。但是比起Oracle10g的闪回技术还是细粒度不够。可惜!

金色的骷髅 发表于 2015-3-17 03:07:09

可以动态传入参数,省却了动态SQL的拼写。

小妖女 发表于 2015-3-23 18:01:29

分区表是个亮点!从分区表也能看出微软要做大作强SQLServer的信心。资料很多,这里不详细说。但是重点了解的是:现在的SQLServer2005的表,都是默认为分区表的。因为它要支持滑动窗口的这个特性。这种特性对历史数据和实时数据的处理是很有帮助的。
页: [1]
查看完整版本: MSSQL网页设计电信企业介入合作的利器-数据堆栈和数据...