公告: 极客数据面向大数据行业从业人员及爱好者分享行业最新资讯以及各种工具使用教程,行业资深大佬可移步至行业专业交流社区 “穹顶喵”!

数据来源与分析的四个阶段

3339

大数据之所以受到关注,是由于Facebook、谷歌和亚马逊等公司对于其业务开拓的示范性应用,通过数据提取他们客户对于产品和服务的核心诉求。
对于企业而言,合理收集数据并利用有效的方法解读其背后的意义,对于发展业务至关重要。数据分析需要使用 IT 技能、业务技能和数据科学。数据源是分析的核心。

一、数据主要有三个来源。以下内容如下:
1、大数据源
社交数据:因社交媒体使用而生成的数据。这些数据有助于了解客户的情绪和行为,并且可用于营销分析。
机器数据:这些数据是使用物联网传感器从工业设备和应用中捕获的。它有助于理解人们的行为,并提供对过程的见解。
交易数据:它是用户在付款单、发票、收据等的离线和在线活动中产生的。大多数此类数据需要预先处理和清理,然后才能用于分析。
2、SQL/无QL数据存储
与传统数据库或 RDBMS 相比,NoSQL 数据库对于分析所需的任务更有利。NoSQL 数据库本身可以很好地处理非结构化数据,并不局限于昂贵的模式修改、垂直缩放和 ACID 属性的干扰。
3、预测分析
提供定制的见解,引导组织产生新的客户响应或购买和交叉销售机会。组织正在使用预测分析在颗粒级上对各个元素进行预测,以预测未来结果并防止潜在问题。这进一步与历史数据相结合,并转化为规范性分析。
成功使用大数据预测分析的一些领域包括业务、儿童保护、临床决策支持系统、投资组合预测、经济层面预测和承保。
4、深度学习
对于传统计算来说,大数据是压倒性的。事实证明,传统的机器学习技术在性能上趋于平缓,数据种类和数量也随之增加。
分析在格式变化、高度分布式输入源、输入数据不平衡和快速移动流数据方面面临挑战,深度学习算法可以非常有效地应对这些挑战。
深度学习在语义索引、执行歧视性任务、语义图像和视频标记、社会定位以及对象识别、数据标记、信息检索和自然语言处理等领域的分层多层次学习方法中得到了有效应用。
5、数据湖泊
将不同的数据集存储在不同的系统中,并将它们与传统的数据管理方法相结合,证明成本高昂,几乎不可行。因此,组织正在制作数据湖,这些湖泊以原始的本地格式存储数据,以便进行可操作的分析。
二、数据流线和分析阶段
在规划数据分析管道时,需要考虑三个基本方面。具体如下:
输入:数据格式和处理技术的选择,它基于数据的基本性质。即数据是否是时间系列和质量。
输出:连接器、报告和可视化的选择取决于最终用户的技术专长及其数据消耗要求。
体积:根据数据量规划缩放解决方案,以避免大数据处理系统过载。
现在,让我们讨论一个典型的过程和分析管道的阶段。
第一阶段:数据摄入
数据摄入是数据流中的第一个也是最重要的步骤。它考虑了数据的三个方面:
数据来源它对于大数据流线架构的选择具有重要意义。
数据结构序列化是保持管道间均匀结构的关键。
数据的清洁度分析与数据一样好,没有缺少值和离群值等问题。
第二阶段:ETL/仓储
下一个重要模块是执行 ETL(提取转换负载)的数据存储工具。数据中心中的数据存储取决于:
硬件
管理专业知识
预算
ETL/仓储的一些经过时间测试的工具包括:
阿帕奇·哈多普
阿帕奇蜂巢
阿帕奇公园
普雷斯托查询引擎
注:谷歌、AWS、微软 Azure 等云公司按次付费提供这些工具,并节省初始资本支出。
第三阶段:分析与可视化
考虑到 Hadoop 对快速查询的限制,人们需要使用分析平台和工具,以便快速和临时查询,并具有所需的结果可视化功能。
第四阶段:监控
在使用可视化工具建立摄入、存储和分析基础设施后,下一步是使用 IT 和数据监控工具进行监控。其中包括:
CPU 或 GPU 使用
内存和资源消耗
网络
一些值得考虑的工具包括:
数据狗
格拉法纳
监控工具在大型分析管道中不可或缺,有助于监控管道的质量和完整性。
三、应用领域
以下是征集到的一些普遍使用案例:
1、客户分析
可用于各种目的,例如微型营销、一对一营销、细分和针对企业客户的大规模定制。企业可以根据客户对同类或不同产品和服务的上销或交叉销售倾向,制定个性化产品和服务的策略。
2、操作分析
运营分析通过利用现有数据,并利用机器和物联网数据丰富数据,有助于改善整体决策和业务成果。
例如,医疗保健领域的大数据处理使我们能够面对与优化医疗保健支出、改进临床试验监测、预测和规划 COVID-19 等疾病流行病应对措施相关的挑战和新机遇。
3、防止欺诈
通过帮助预测和减少欺诈(主要是在金融和保险部门)带来巨大收益。
例如,保险公司可实时获取有关人口、收入、医疗索赔、律师费用、天气、客户录音和呼叫中心笔记的数据。具体的实时详细信息通过将上述信息与历史数据相结合,帮助推导出预测模型,以便及早识别推测的欺诈性索赔。
4、价格优化
公司使用分析手段通过在产品级别而不是类别级别找到最佳价格来增加利润率。大公司发现,要获得定价变量的细粒度细节和复杂性太让人难以忍受了,这些变量对成千上万的产品来说经常变化。
分析驱动的价格优化策略(如动态交易评分)允许公司根据数据和对单个交易级别的见解为产品集群和细分市场设定价格,从而从要求苛刻的客户那里快速赢得胜利。