我们可以将大数据描述为这样一种数据管理难题,由于数据量、数据速度和数据多样性方面的需求日益增加,人们无法使用传统数据库来解决这种难题。大数据的定义很多,但其中大部分定义都包含所谓大数据的“三个 V”的概念:
大量 (Volume):数据量从数 TB 到数 PB
多样 (Variety):包括多种来源和格式(例如 Web 日志、社交媒体互动、电子商务与在线交易、财务交易,等等)的数据
高速 (Velocity):从生成数据的时间到向用户提供可付诸行动的见解的时间,企业对速度的要求越来越高。因此,需要以相对较短的时间(从每天一次到实时)完成数据的收集、存储、处理和分析
您为什么会需要大数据?
尽管关于大数据的宣传无处不在,许多组织仍然没有意识到他们正面临大数据问题,或者根本没有从大数据的角度思考自己面临的问题。一般而言,如果组织现有的数据库和应用程序已无法再扩展以应对数据量、数据多样性和数据速度方面需求的激增,那么该组织很可能会通过采用大数据技术而获益。
若未能正确解决大数据难题,则会导致成本不断上升,工作效率和竞争力不断下降。而合理的大数据策略则能够迁移现有的繁重工作负载,交由大数据技术处理,并部署新应用程序以利用新的商机,从而帮助组织降低成本并提高运营效率。
大数据的工作原理是什么?
大数据技术提供了可满足整个数据管理周期需求的新工具,因此具有技术上和经济上的可行性,不仅能够收集并存储更大的数据集,还能对其进行分析,以发掘有价值的新见解。在大多数情况下,大数据处理包含一种常见的数据流 – 从收集原始数据到使用可付诸行动的信息。
收集。收集原始数据(事务、日志、移动设备等)是众多组织在应对大数据时所面临的第一个难题。优秀的大数据平台可使这一步事半功倍,让开发人员能够以任意速度(从实时处理到批处理)摄取多种数据(从结构化数据到非结构化数据)。
存储。任何大数据平台都需要一个安全、可控制且持久耐用的存储库,用于在处理任务之前(甚至之后)存储数据。根据具体需求,您可能还需要临时存储来存储传输过程中的数据。
处理和分析。在这一步中,数据将从其原始状态转换为可使用的格式,实现的方法通常是排序、聚合、合并,甚至是执行更高级的函数和算法。随后,将存储转换后产生的数据集以供进一步处理,或者通过商业智能和数据可视化工具向用户提供这些数据集。
使用和可视化。大数据解决方案的意义就在于从您的数据集中获取高价值、可付诸行动的见解。理想情况下,您可通过自助式商业智能工具和灵活的数据可视化工具向相关人员提供数据,他们可利用这些工具轻松快速地浏览这些数据集。根据分析的类型,最终用户还可能以统计“预测”(预测分析)或建议行动(规范分析)的形式使用分析结果数据。
大数据处理的发展历程
大数据生态系统一直在以惊人的速度向前发展。如今,有多种分析类型可满足组织中众多职能的需求。
描述分析可帮助用户回答以下问题:“发生了什么事?为什么?”。示例包括带有计分卡和仪表板的传统的查询和报告环境。
预测分析可帮助用户估计某个给定事件在未来发生的几率。示例包括早期的警报系统、欺诈检测、预防性维护应用程序和预测。
规范分析可为用户提供具体(规范)建议。它们可回答用户的以下问题:“如果发生‘x’,我该怎么做?”
最初,Hadoop 之类的大数据框架只支持批处理工作负载,它们在指定的时间段(通常为数小时乃至数天)内批量处理大型数据集。然而,随着“获得见解的时间”变得越来越重要,大数据的“高速”特点已经促使许多新的框架(例如 Apache Spark、Apache Kafka、Amazon Kinesis 等)做出改进以支持实时和流式数据处理。