|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
mysql的prepare其实是本地PHP客户端模拟的,并没有根据你mysql的设置做字符集的调整。应该交与mysqlserver端做prepare,同时得调用mysql_set_character_set去操作,server才会按照字符集去做转义。数据数据堆栈――在“啤酒与尿布”中发掘01-5-21下战书04:19:25
对话者:掌管人:程鸿――《盘算机天下》报记者专家:孟晓峰――中国国民年夜学信息学院传授祁国辉――“数据堆栈之路”网站掌管人IT厂商:杨顺生――NCR年夜中华区市场及互助同伴总司理用户:陈道斌――工商银行信息办理部处长(博士)对话主题:数据堆栈在中国的使用远景怎样?数据堆栈的门坎有多高?掌管人:自从“啤酒和尿布”的故事在中国普遍传播以后,数据堆栈在中国也热烈了一阵子,很多企业家曾对它抱以极年夜的但愿,但为何时隔不久数据堆栈使用就进进了“蛰伏期”?数据堆栈手艺在中国的使用遭到了哪些要素的制约?孟晓峰:数据堆栈是在数据库基本上开展而来的,它一般有三个部分:数据堆栈(DataWarehousing)、联机剖析处置(OLAP)及数据发掘(Datamining),它们之间具有极强的互补干系。数据堆栈是为了满意人们在高度数据堆集基本长进行数据剖析的必要而发生的,但因为今朝中国在基本数据的堆集方面存在不敷,招致数据堆栈手艺的使用没能推行开来。一个手艺的呈现通常为因为立异者提出新的观点,研讨者往办理某些成绩;固然数据堆栈已跨过了这一阶段,但今朝在数据堆栈的使用推行过程当中,又碰到了一个门坎,那就是这类手艺怎样被多半人所承受。我以为要使数据堆栈被多半人承受,起首必要办理的成绩就是数据发掘手艺怎样与现有贸易手艺的分离。今朝市场上已有多种合用办理一切贸易形式的通用数据发掘体系,但实践上这些体系极为欠好用,只要那些十分熟习数据发掘手艺的人才网可以了解和利用它们,而一般用户是很难使用这些手艺来办理本人的贸易成绩。杨顺生:我们是一家真正派营数据堆栈产物的企业,从我们与国际企业打仗的履历来看,数据堆栈手艺在中国没能很好开展起来,次要有以下几方面缘故原由:第一,中国的信息化基本设备绝对不太完美,比方今朝电信行业的计费数据十分分离,计费工具就有40~50种,数据收罗都是各弄各的,为从此的剖析带来很多手艺上的坚苦。第二,企业的合作认识和服务认识还不敷强,关于决议剖析的需求还不那末急切,因为企业没无机会实行数据堆栈,因此也响应形成这方面手艺人才网缺少的征象。第三,数据堆栈是一个数据共享的体系,分歧层面的人从中失掉的信息会年夜纷歧样,它对企业决议是一个很好的工具,但今朝中国企业没有创建起一个办理机制来推进数据的共享,不管是对人的才能、企业的构造轨制仍是数据质量都没有一个一连的办理机制,要在如许的基本之上创建好用的数据剖析长短常坚苦的。祁国辉:实践上,在外洋市场合作十分剧烈的情况下,每一个阛阓为了本身的保存,已想尽了举措,良多可以被野生发明的纪律早就发明了,在这类情形下,利用数据发掘手艺来办理成绩是一个很一般的设法。可是数据发掘工具其实不能间接告知决议者应当把啤酒和尿布摆在一同卖。国际企业有良多实行了数据堆栈,但了局年夜多不尽善尽美,其关头的缘故原由在于,建立数据堆栈时必定要先确以为甚么要投资数据堆栈?要使用数据堆栈办理甚么成绩?数据堆栈要到达甚么目标才能够告一段落?不然做完数据堆栈还不晓得该如何来用,怎样评价其乐成与否。其次,数据堆栈不是那种买来就能够利用的软件产物,现实上,数据堆栈更像一个历程,一个用户慢慢熟悉本人、进步本人的历程。第三,数据堆栈不但要反应出企业的近况,并且还要依托用户做出终极的决议。总之,国际数据堆栈不太乐成的缘故原由除用户的使用程度、营业办理程度有待进步外,数据堆栈产物代价居高不下的缘故原由也多几少影响到其在国际的顺遂推行。陈道斌:我自己是处置信息剖析方面事情的,关于为何要借助数据堆栈也正在睁开一些研讨。作为用户我感应,银行业最必要数据堆栈手艺,也最应当鼎力开展数据堆栈手艺。近几年国际几年夜银行都在这方面举行了一些实验,但是迄今为止失利者多,乐成者少。个中最次要的缘故原由就是很多银行在创建数据堆栈体系时,对体系所要完成的功效定位不明白。一个数据堆栈体系应分明区分于营业处置体系,由于营业体系的请求常常是疾速呼应和界面复杂等。而数据堆栈与营业体系并非平行的干系,它应当是基于一切营业体系之上的,对营业信息举行收罗、剖析、收拾和公布等,应当是一个不乱的、带偶然间参数的数据汇合。数据堆栈手艺自己并没有新的内容,它是办理迷信、盘算机迷信、收集迷信和剖析手腕的年夜交融。数据堆栈手艺好用吗?掌管人:数据堆栈使用不睬想是不是存在手艺上的缘故原由?利用者的条理与数据堆栈前端工具之间是不是存在冲突?孟晓峰:在数据堆栈的三个观点中,数据堆栈是企业举行数据剖析的基本,它的次要事情是将数据库中的原始数据举行归结收拾,会萃成一个可供高条理利用的数据汇合。在数据堆栈的基本上有两类剖析工具,一类是做剖析型事情的OLAP,另外一类是做展望型事情的数据发掘。数据发掘观点的提出,是但愿发明像“啤酒和尿布”如许具有联系关系性的纪律。但今朝这套手艺系统,不管在中国仍是活着界其他国度,使用都遭到必定制约,最次要的缘故原由是,这套手艺还没有到达数据库手艺的成熟度和易用性。但今朝看来,一切产物的可用性都还值得嫌疑,由于假如你不是一个数据库专家、统计学专家和野生智能专家,你将很难用好如许的剖析工具。今朝市场上的数据堆栈产物都是基于一个通用的手艺平台而计划的,这类产物固然可以办理分歧用户的剖析需求,但它未将特别范畴的贸易逻辑与数据堆栈手艺集成起来,因此剖析效果不成能到达峰值。另外一个手艺瓶颈是今朝各类算法层见叠出,还没有履历一个年夜浪淘沙的沉淀,而数据库中的检索手艺经由人们多年的探索,已构成几种流动、成熟的手艺形式,这是数据堆栈产物没能到达数据库产物有用性的另外一个缘故原由,以是说今朝数据堆栈手艺的开展仍处于堆集阶段。陈道斌:工商银行在创建数据堆栈体系时的一致熟悉是,在市场上买不到能够间接利用的数据堆栈产物,必需依据本人的营业举行量身定制,必需将本人的数据源及营业需求理分明,然后将两头搭桥的事情做好,这个搭桥的事情必要市场上的数据堆栈产物的撑持,从一入手下手就必需注重营业与手艺的和谐。祁国辉:因为数据堆栈是从东方国度发生的,它带着浓郁的东方文明色采,最典范的是数据堆栈中的报表展示。外洋的产物注意的是报表内容,可是中国请求内容和格局一样主要,乃至有些时分格局比内容更主要,在这一点上,外洋的报表工具很难满意中国用户的必要。数据堆栈作为一个工具,企业外部每一个条理的用户都大概使用它发生效益,可是真正完成起来,仍是存在用户程度与需求成绩,我们不成能请求每一个用户都可以自已往数据堆栈中猎取数据,并且平安措施也不同意如许做。这时候,我们必要的是一系列分歧的数据堆栈前端工具,而这恰是今朝一切的数据堆栈产物都缺少的。今朝的产物年夜多半只供应一种工具,试图满意一切人的需求,了局每一个人都不中意。数据堆栈使用局限怎样?掌管人:哪些行业对数据堆栈的需求较年夜?今朝数据堆栈手艺在国际哪些行业使用较好?为何?杨顺生:我已经依据一些假定前提对某些行业和企业实行数据堆栈的成熟度作太过析。在2000年环球财产杂志500家名单中,有近50%的企业已实行了企业级数据堆栈或部门级数据集市,我们懂得到电信、银行、批发、航空、铁路、邮政、食物、消耗类打造、汽车、医疗、保险等行业是关于数据堆栈手艺需求最为激烈的行业。在一切这些实行了数据堆栈的行业中,所占比例分离是:批发业17家、航空业16家、有线德律风15家、挪动通讯企业14家、银行业13家。别的,我们还对今朝环球分歧行业实行过数据堆栈的企业数目举行了统计:依据外洋实行的履历,我们发明,向导的需求度、信息手艺基本举措措施、剖析型的使用必要和合作的剧烈水平这四项要素是影响企业实行数据堆栈进度的关头要素。企业范围越年夜、汗青数据越多,实行数据堆栈的急切性就越高;批发和打造型企业今朝较器重本钱把持,会起首利用营运和临盆的剖析型使用;当局羁系部门因为汗青数据收罗的坚苦,实行数据堆栈的速率绝对较慢;企业团体总部为增强羁系,会接纳数据堆栈作为处置和剖析年夜会合的信息手艺手腕;受过工商办理学教导的向导,对照器重迷信化的决议手腕,因而对照撑持数据堆栈的建立。陈道斌:今朝在中国金融体系只要工商银行在数据堆栈的使用方面有所冲破,其缘故原由是:起首工商银行范围较年夜,客户群复杂,因而必需对客户举行深切研讨,以完成以客户为中央的服务形式;其次,早在1999年9月1日,工商银行就提出将一切营业都会合在北京和上海两其中心举行处置,实践上办理了创建数据堆栈所必须的数据会合成绩;第三,工商银行有一个最年夜的上风,就是已奉行了一套一致开辟的综合营业体系,供应了客户信息整合的前提。而从向导撑持的角度看,如今的行长是专门研讨高手艺情况下的贸易开展成绩的,他关于使用信息手艺开展银行营业有着独到的看法,因而工商银行今朝在数据堆栈的第一个项目(客户干系办理)上已有了本色性的停顿。如何跨过数据堆栈门坎?掌管人:中国数据堆栈市场成熟吗?关于后面所提到的制约要素,我们可以提出哪些办理思绪?应接纳甚么样的措施和手腕来推进中国企业数据堆栈的使用?祁国辉:这个成绩问得好!GartnerGroup已经有一份数据堆栈市场占据率的呈报,从呈报中能够看出,到2003年,美国的数据堆栈发卖额将占全球的58%,亚洲只占7.5%,不丢脸出我们的差异。可是今朝二者的手艺开展速率相差未几,以是说数据堆栈使用市场在中国仍是存在的。我以为唯一的办理举措是,让企业间接面向合作剧烈的市场,改动办理思绪,如许很快就会发生需求,看书学拳击永久也意会不到拳王的丰厚履历。孟晓峰:如今愈来愈多的公司在创建基于Web的电子商铺,这些商铺能够搜集到大批的原始数据,因而电子商务成为数据堆栈手艺极有出路的使用范畴。而怎样为电子商务使用供应一套特别的数据堆栈办理计划,应当比一个通用化的办理计划更可以为市场合承受,从而跨过数据堆栈使用历程的门坎。如今数据堆栈使用范畴有很多定制的需求,用户急需一种既能够供应数据剖析又能够供应客户本性剖析的工具。杨顺生:从先辈国度的履历中我们发明,联机买卖处置体系(OLTP)和企业网两项信息化基本举措措施是实行数据堆栈的必备前提。合作情况越剧烈就越必要数据堆栈体系,企业必要懂得客户的需求、必要发明谋划风险同时还必要举行谋划剖析和办理,一切这些剖析都属于年夜数据量的剖析,接纳传统的信息手艺将会发生良多范围性,必需依托一个TB级的数据堆栈体系才干办理以上成绩。数据堆栈是剖析型的使用,是办理庞大谋划成绩最符合的信息手艺。但这些概念合适中国的企业生态情况吗?有无国际的案例能够撑持上述概念呢?比来上海证券中心挂号结算公司和中公民航信息收集公司已乐成地实行了TB级数据堆栈体系,这两个案例是对中国企业、奇迹单元实行数据堆栈需要性最无力的论证。陈道斌:从工商银行实行数据堆栈的情形看,数据堆栈手艺在中国有着极年夜的开展远景。数据堆栈自己的手艺和办法系统有良多,但在创建数据堆栈使用时,还应当以成绩为导向而不克不及以办法为导向,要依据成绩寻觅产物和工具。在这方面失利的例子太多了,次要缘故原由就是很多企业是先购置了数据堆栈产物,以为这个产物很好,必定要将它用起来,然后才入手下手创建本人的体系,这类做法已被理论证实是不成行的。开辟数据堆栈使用不克不及稳扎稳打,但愿一次可以将一切的成绩都办理是不成能的。数据堆栈的建立历程要考究办法论,要在一个年夜的需求框架下举行,在营业和手艺职员很好相同的情形下,一次办理一个成绩。【记者点评】“枪手”与“枪”在对话过程当中,记者最年夜的感觉就是,由于数据堆栈其实不能间接告知决议者应当把啤酒和尿布摆在一同,以是企业不克不及将一切的“宝”都压在数据堆栈上。假如说数据堆栈是一支好“枪”,那末决议者就应当是“玩枪的人”。数据堆栈只可以反应出企业的近况,终极的决议仍是要人来做。数据堆栈中有两年夜类的使用,分离是在线剖析和数据发掘,在线剖析偏重于对一切事件举行多角度的展示,而数据发掘则偏重于对事件中蕴涵的未知纪律举行发明。从营业上看,二者都能够用来发明和总结纪律,一种是经由过程考证某些料想来发明纪律,另外一种则是经由过程数据来找寻隐含的未知纪律。数据发掘的乐成取决于对数据的公道处置及算法,它并非对任何划定规矩都可以往发明的全能工具,以是利用者对本人的营业越熟习,就越可以给数据发掘供应完美的匡助和引导,自觉地利用数据发掘,只能留下对数据发掘手艺的遗憾。我们分析上面的两个操作,都有一个“删除数据”的过程。 |
|