大数据由来自各种不同数据源的潜在业务相关数据组成,包括结构化和非结构化数据。经过分析后,大数据可以提供更深入的洞察和更准确的信息,帮助企业全面了解所有运营领域及相关市场。
大数据技术适用于所有处理和分析大数据的工具、软件及技术,包括但不限于:数据挖掘、数据存储、数据共享和数据可视化。
Apache Hadoop 是一种开源分布式处理软件解决方案。Hadoop 可以连接多台计算机,并支持这些计算机并行处理大数据, 因此能够加快和简化大数据管理。
Apache Spark 是一种开源分布式处理软件解决方案。Spark 可以连接多台计算机,并支持这些计算机并行处理大数据, 因此能够加快和简化大数据管理。虽然 Spark 的前身 Hadoop 更为常用,但 Spark 采用了机器学习和其他技术,速度和效率更高,因此越来越受欢迎。
数据湖是一个能够存储和检索大量原始非结构化数据的数据库。数据湖必不可少,因为大部分大数据都是非结构化的,无法存储在传统的行列式关系型数据库中。
暗数据是指企业在常规业务运营中采集的所有数据,例如,监控录像和网站日志文件。出于合规需要,企业会保存这些数据,但通常不会使用。这些大型数据集的存储成本要高于它们所带来的价值。
数据网络结构是指整个业务生态系统中大数据架构和技术的集成。它的用途在于将所有来源和所有类型的大数据与整个企业的所有数据管理服务连接起来。