1、效率低
大部分传统的数仓都是建在传统的数仓上的Hadoop以上。这种传统的数字仓库带来了几乎无限的横向扩展能力,但也导致了传统数字仓库技术效率低下的缺陷。低效率主要体现在以下几个方面。
部署效率低:部署Hive/HBase/KylinHadoop集群之前必须部署好。与传统数据库相比,这种部署效率非常低。
低运维效率:Hive/HBase/Kylin基于Hadoop,Hadoop生态会带来非常严重的生态单点故障问题是,Hadoop系统中任何组件的问题都可能导致整个系统的不可用性。使用传统的数字仓库对操作和维护有很高的要求。
低计算效率主要体现在Hive和Kylin这两个数字仓库没有自己的存储引擎和计算引擎,导致Hive和Kylin复杂的查询只能依靠堆叠机来实现,而不能从数据本身开始。在大数据的后期,一些专门设计的数据存储格式成为快速数据查询的标准,这种现象得到了改变。HBase优化的核心是重新设计的存储引擎,使HBase能够优化数据本身的查询速度。
2、延迟高
除了效率低下的缺点外,构建在Hadoop以上的数仓引擎还面临着高延迟的挑战。高延迟主要体现在以下几个方面。
查询延迟高:使用Hive作为数仓,受限于HDFS性能瓶颈,Hive查询速度慢,难以支撑低延迟场景,不能应用于实时计算场景。
写入数据延迟高:也受限于HDFS,Hive数据写入延迟也很高,这意味着数据不能实时写入Hive,实时分析场景无法支撑。
3、成本高
传统的数仓数仓引擎也会带来高成本的挑战,主要体现在以下几个方面.
部署成本高:由于Hadoop的计算逻辑是通过堆积计算资源来摊销复杂查询的时间,如果需要达到理想的性能,集群中节点的数量必须达到一定的规模,否则由于计算效率低,单机很容易成为性能瓶颈。这就导致了Hive等基于Hadop的数字仓库部署成本高的缺陷。
运维成本高:集群服务器达到一定规模后,运维成本会指数级上升。同时,由于Hadoop中的组件太多,任何组件的故障都可能导致整个服务不可用。因此,运维团队必须包括所有组件的运维人员,否则运维团队可能会很好地执行任务。这也大大提高了运维团队的人工成本。
存储成本高:Hadoop为了避免集群中服务器故障造成的不可用性,HDFS默认使用三个副本策略来存储数据,即数据将保存三个副本。这将大大提高存储成本。即使新一代Hadop采用EC修改和删除代码技术来减少副本的数量,但有限的使用场景只适用于冷数据存储,而不适用于经常需要查询的热数据。
决策成本高:由于传统大数据的高部署成本,企业在做决策时面临着相对较大的决策成本。一方面,早期投资太大,短期内看不到效果,长期效果难以说清楚。另一方面,即使企业决心建设数字仓库,缺乏昂贵的基础设施和专业技术人员也会导致长期的建设周期,长期的建设周期会带来许多不可预测的变量,最终影响企业的决策。
本文摘编自《ClickHouse性能之巅:从架构设计解读性能之谜,经出版商授权发布。(书号:9787111716587)请保留文章来源。
作为中国工业互联网产业的领导者,航天云网公司世界上第一个拥有完全独立知识产权的工业互联网平台——航天云网络INDICS平台,已连续四年入选工业和信息化部“跨行业、跨领域”工业互联网平台。航天云网络充分发挥作用INDICS平台“新基础设施”的主力军和产业基础赋能作用,全面聚焦“产业互联网” 双碳管理“工业互联网” 安全生产“工业互联网” 5G工业互联网 产业集群等关键方向在帮助政府数字化治理、赋能企业数字化转型升级方面取得了显著成效数字经济蓬勃发展,积极贡献航天力量,得到社会各界的广泛认可和高度评价。
点击更多信息资讯活动 – 国家工业互联网平台航天云网