大数据就像一个大食堂,讲讲数据部门的人们都在干什么

依然是和开篇那篇《关于大数据》相关的内容,我又要开启举例模式啦。我由衷地喜爱把一些专业的知识与我们日常生活中常见的事物进行对比。在我看来,这样做有着诸多妙处,它能让原本晦涩难懂的专业知识变得更加生动鲜活,就像为枯燥的文字赋予了生命一般。而且,这种对比方式能极大地降低理解的难度,让更多人轻松领会其中的含义。熟悉我的朋友们都十分清楚,我常常会用食堂来类比一家企业的大数据。这是因为食堂的运营过程中蕴含着许多和企业大数据处理相似的逻辑,二者之间存在着奇妙的共通之处,用食堂来类比,能让大家更直观地感受到大数据在企业中的运作模式。

先上图

 image.png

如图所示,展现在我们眼前的是一个食堂的基本架构。可别小瞧了这个看似普通的食堂架构,实际上,它也是一家企业大数据的基本架构。这种相似性就如同隐藏在生活角落里的宝藏,一旦被发现,就能为我们理解大数据打开一扇全新的大门。每次我走到公司食堂的时候,脑海中都会不由自主地浮现出我们日常所做的工作。在这个奇妙的类比里,我们就像是食堂里各司其职的工作人员,有的如同技艺精湛的厨师,凭借着专业的技能和丰富的经验,对数据进行精心的加工和处理;有的好似细致认真的备菜员,仔细地挑选和准备数据原材料;还有的就像负责管理仓库的管理员,用心地保管和整理数据,确保数据的安全和有序。

首先,在没有数据中台,或者数据仓库之前,所有的数据都是散落在各个业务系统和其他地方的。这就好比是一个热闹非凡的菜市场,里面摆满了各种各样没有被加工过的原始材料。你看那满是泥巴的胡萝卜,带着泥土的芬芳,却还保留着未经雕琢的原始模样;还有那打了农药的青菜,虽然带着一些瑕疵,但却蕴含着成为美味佳肴的潜力。这些原始数据就如同菜市场里的蔬菜,杂乱无章地分布着,等待着被发掘和利用。 

我们通过数据同步手段,将我们需要的这些原始胡萝卜(原始数据),集中到一起。这个过程就像是食堂的采购人员,在菜市场中精心挑选我们需要的食材,然后把它们集中采购回来,这在大数据领域俗称采购(数据集成/数据上云)。接着,我们把采购来的瓜果蔬菜放在一个仓库中的一个房间里等待下一步处理,这个房间我们称为 ODS(Operational Data Store)。这个房间就像是一个临时的中转站,各种数据在这里暂时存放,等待着被进一步加工和处理。

下一步,我们要对这些脏兮兮的原材料(原始数据)进行清洗 - 去皮。想象一下,那些带着泥巴的胡萝卜,经过我们的清洗和去皮,变得干净整洁,就像数据经过清洗后去除了杂质和错误,变得更加纯净和可用。然后,我们把处理好的数据转运到另外一个房间CDM(Common Data Model),并将它们放在事先设计好的货架(数据模型表)上。这些货架就像是图书馆里的书架,每一层都有明确的分类和标识,以便可以让大家方便高效的找到所需的数据,随要随取。模型可以理解成是一堆表格的设计,后面会详细说明。设计这些货架(表)的工作我们叫做模型设计,它的目的就是让数据井然有序,就像给图书馆的书籍进行合理分类一样。同时,我们还要考虑以后方便扩展更多的货架,以应对不断增长的数据需求。

到了这一步,原材料就准备好了,随时等待顾客上门点菜。

这个时候有个顾客(数据运营/业务人员)来了,说要吃一碗番茄炒蛋(数据报告)。这个订单被传送到厨师(数据分析师)的面前,厨师开始认真分析,根据多年的经验和专业知识,判断出需要一个番茄两个鸡蛋。然后,厨师从仓库中取走自己需要的番茄和鸡蛋。接着,厨师熟练地将番茄切成块,把鸡蛋搅散,然后丢到锅里一顿操作,就像施展魔法一样,一盘美味的番茄炒鸡蛋做好了。在大数据的世界里,数据分析师就像这位厨师,根据业务需求,从数据仓库中提取所需的数据,经过一系列的分析和处理,最终生成满足需求的数据报告

后来数据分析师发现太多人都爱吃番茄炒蛋了,为了提高效率节省人力,就建议买个自动炒菜机器人(BI 系统)。这样一来,当顾客要吃番茄炒蛋的时候,就可以自动让它来做好了。使用自动炒菜机器人不仅能节省人力,而且还能提高效率,保证菜品的质量稳定。同时,数据分析师跟仓库说,让他们顺便把番茄切好,鸡蛋也准备好。于是,仓库又新增了一个房间叫 ADS(Application Data Store)专门用来处理 CDM 房间的货。在这个房间里,工作人员根据菜单上不同的菜,提前备好食材,该切块的切块,该切丝的切丝。这样对于畅销的几个菜品,食堂制作起来就更高效了。在大数据领域,ADS 就像是一个专门为热门数据需求准备的“预制菜”仓库,能快速响应业务需求,提高数据处理的效率

这个模式大大提高了食堂的工作效率,所有工作都有条不紊的进行。就像一个运转良好的机器,每个环节都紧密配合各司其职,为顾客提供优质的服务。

随着时间推移,应顾客(数据运营/业务人员)的要求食堂增加了新的菜品,设计了新的菜单。这就意味着食堂从原材料到仓库货架都需要再做调整。原来的材料怎么办呢?那些长期不怎么用的食材放在货架上也是浪费空间,就像一些陈旧的数据,如果一直保留在数据仓库中,不仅会占用大量的存储空间,还会影响数据的查询和处理效率。而且,原材料的品质不稳定也会导致顾客拉肚子等问题,在大数据领域,这就相当于数据的质量出现问题,会影响数据分析的结果和业务决策准确性

那么,如何处理这些问题呢?以后又如何避免类似的问题发生呢?还有,放贵重食材的货架要多上几把锁才行,在大数据中,这就意味着要加强对重要数据的安全保护。这些问题,都需要处理和解决,解决这些问题的工作在大数据食堂里叫做数据治理。数据治理就像是食堂的管理团队,负责协调各个环节的工作,确保食堂的正常运营和数据的质量、安全

建立这么一个有条不紊的大食堂总会有个统筹的人吧,这个统筹的人我们叫数据架构。数据架构就像是食堂的总设计师,他要规划食堂的整体布局,制定各项规章制度协调各个部门之间的工作,确保食堂能够高效、稳定地运行。在大数据领域,数据架构师负责设计和规划企业的大数据架构,确保数据能够在各个系统之间顺畅流动,为企业的业务发展提供有力的支持。

联系我

有问题或想交流,欢迎通过以下方式联系我

微信二维码

扫描二维码添加微信