公告: 极客数据面向大数据行业从业人员及爱好者分享行业最新资讯以及各种工具使用教程,行业资深大佬可移步至行业专业交流社区 “穹顶喵”!

2022年大数据趋势:数据市场演进

2975


随着2022年的临近,大数据生态系统也进入到一个过渡状态,这很可能重新定义你所知道的——或者你认为你知道的——关于它的一切。云仍然是其明确的中心,但正在越来越接近边缘。
人工智能仍然是其媒体的宠儿,但可能很快就会让量子计算成为一席之地。数据结构比以往任何时候都更加普遍,但数据网格概念的兴起也是如此。
在这些集体和个人运动中,唯一不变的是数据本身。数据对企业的估值比以往任何时候都更加宝贵,因为Indico Data首席执行官汤姆·王尔德(Tom Wilde)表示,"现实情况是,现在世界上每家公司都是一家数据公司。我不在乎你是卡车运输企业,还是制药公司,还是保险公司。无论你喜欢与否,你都是一家数据公司。而且,您处理数据的程度将对您未来的竞争力起着巨大作用。

在来年驯服组织数据(尤其是大数据)时,企业将帮助自己获得上述方法为处理、分析、存储和集成大数据提供的众多机会。这一点很清楚。
有些令人惊讶的是,利用这些领先的能力巧妙地管理大数据的最终结果。数据市场的出现,促进了组织内部和组织之间大数据的自由流动交换,在可组合数据管理及其技术基础的帮助下,正在迅速成为现实。
"在某些情况下,与其说是买卖,不如说是买卖。它更多的是关于绑定[数据],"Denodo产品营销总监Saptarshi Sengupta承认了这一趋势。"但是,在某些情况下,它正在买卖数据。
数据市场
数据市场的崛起,代表了大数据的消费化,与亚马逊或路透社等金融公司的其他市场相似,这一直是一个长期的理想。它终于实现了,因为随后描述了数据结构,数据网格,数据服务层,活动元数据和边缘计算的方法。从最好的角度来看,数据市场是为志同道合的消费者将数据货币化的一个不堪设想的机会。"这是企业:财富100强,财富500强,"Privacera客户成功总监Purnima Kuchikulla透露。这些家伙已经在引领数据市场。他们想出售数据。他们是卖家;他们是买家;他们买了,然后想再卖一次。
无论数据交换是出于直接货币化目的,还是用于业务部门之间的跨部门用例,组织为此目的配置的数据越多,它就越有利。"最重要的是,他们正在销售数据集;他们没有出售一个数据表,"Kuchikulla指出。"他们将其作为域的一部分的数据集出售。正如Sengupta所假设的那样,这些数据集交换也可以在同一组织中的不同域之间进行。他描述了一个实施"决策支持系统"的大学系统,其中学校"有一堆不同的校园,从这些校园里有教职员工,学生,每个人都在看数据。这些数据可以是关于书籍,图书馆,课程设置,注册,注册等。它更像是通过特定网站或门户的数据消费模型。
数据网格
从概念上讲,数据网格是一种架构方法,既类似于企业数据结构,又具有辅助性,Gartner将其称为2022年的首要战略趋势。后者是连接整个组织的所有数据(无论其位置如何)的整体方法,因此可以按需访问它们。尽管实施了各种方法,但已经出现了一些定义数据结构的能力。"有数据目录能力,主动元数据能力,语义层,所有数据集成材料,数据准备等,"Sengupta列举道。
数据网格以这种分布式架构方法为基础,包括有关数据创建、存储和编目的特定于域的信息,以便适用于跨域的用户。"它为您提供了一定程度的持久性和数据存储,但它不是一成不变的,"Calyptia联合创始人Anurag Gupta解释说。数据网格的域特定属性解决了跨部门使用的语义差异,同时为公开数据提供了治理措施。网格通常由集中式团队监督。根据Gupta的说法,"网格几乎代表了你的中枢神经系统,你所有的数据都以这种可操作的方式存在,准备发送到不同的最终目的地。
数据服务层
分散的数据资产统一连接和控制以交付给多个位置(和用户)可以说是数据市场的定义。尽管如此,如果没有Commit首席客户官 Nathan Cayzer 所说的"服务层",这种范式,对于数据结构和数据网格来说,是行不通的。通过对云面向服务的架构的明显暗示,实时服务层有助于向组织内部和跨组织的最终用户提供数据。"实时服务层允许您实时或接近实时地实现对最终用户的响应,"Cayzer提到。此类服务层要么支持以下数据管理构造,要么又由以下数据管理构造提供支持:
数据传输:服务层提供的数据的即时可见性可以为正确的操作提供正确的数据,"在金融或银行业中,它可以让你获得交易公司当前活动的实时快照,而不必等待[批量作业],"Cayzer指出。
数据湖屋:数据湖屋主要在云环境中实现,它融合了数据仓库和数据湖的最佳方面,以整合数据治理和语义的正式机制,"将所有不同的数据源(无论是结构化的、半结构化的还是非结构化的)放在一起,以便您可以运行 ETL 聚合查询的代码,并为客户提供服务层,"Commit首席营收官Max Nirenberg指出。
超级数据库:该仪器的主要优势是"我们正在谈论PB级的数据,这可以将多个用例整合到一个数据库中:从OLTP,OLAP,分析,搜索等,"Cayzer说。它更高效,而不是分布在多个数据库和机器上。
活动元数据
Gartner 已经接受了将元数据的价值从被动数据沿袭部署反转到生产环境中的低潜伏操作的概念。在某些情况下,此功能需要组织"使用元数据来执行某种AI或ML,"Sengupta评论道。"你基本上会查看你的元数据和日志文件,并将其转化为人工智能和机器学习,这样你就可以推荐哪些类型的活动。
有时,这样做需要确定集成数据的最佳方式。在其他情况下,此功能包括"动态标记,表示数据如何从边缘设备流向数据网格的元数据",Gupta表示。"这种元数据至关重要,因为它可以代表重要的因素,比如团队,以及哪个团队拥有什么数据切片。随着隐私问题的增长,您希望确保数据切片处于适当的合规性和治理之下。
边缘基础设施
在数据市场中,在云边缘轻松交换低潜伏数据(如天气数据、交通更新或制造业发展)的能力扩大了其企业价值。这样做取决于"将计算和存储基础架构带到边缘,为后云世界提供基础架构,"Cloudian首席技术官Gary Ogasawara指出。尽管边缘部署通常会将一些数据传输到集中式云,但此架构模型不断增长的用例包括:
视频流:从安全用例到非接触式购物,视频流正变得越来越普遍。例如,它通常依靠认知计算来过滤掉安全视频的正常操作图像。
欺诈检测:小笠原观察到,通过边缘处理增强物理位置的支付欺诈检测"通过实时执行此操作使最终用户和提供商受益"。
个性化:在零售环境中,边缘处理为实体店的个性化客户体验创造了机会,"就像电子商务在亚马逊上一样,"小笠原透露 - 这在数据市场中是有利可图的。
可组合性
数据网格、数据服务层、活动元数据和边缘计算的发展通过对请求实时传播数据的精细控制,增强了大数据管理。有时,这种交付包括在数据市场中销售数据,这一概念足够广泛,包括部门之间交换数据以及时采取行动。然而,就其相互关系而言,这些发展源于可组合性原则,该原则是未来几年适应性业务弹性和资本化的基础。