大数据基准测试工具TPCx-BB源码分析

TPCx-BB是大数据基准测试工具,它通过模拟零售商的30个应用场景,执行30个查询来衡量基于Hadoop的大数据系统的包括硬件和软件的性能。其中一些场景还用到了机器学习算法(聚类、线性回归等)。为了更好地了解被测试的系统的性能,需要对TPCx-BB整个测试流程深入了解。本文详细分析了整个TPCx-BB测试工具的源码,希望能够对大家理解TPCx-BB有所帮助。

阅读全文

分布式一致性算法:Raft 算法(Raft 论文翻译)

Raft 算法是可以用来替代 Paxos 算法的分布式一致性算法,而且 raft 算法比 Paxos 算法更易懂且更容易实现。本文对 raft 论文进行翻译,希望能有助于读者更方便地理解 raft 的思想。如果对 Paxos 算法感兴趣,可以看我的另一篇文章:分布式系列文章——Paxos算法原理与推导

阅读全文

Hive on Spark调优

之前在Hive on SparkTPCx-BB测试时,100g的数据量要跑十几个小时,一看CPU和内存的监控,发现 POWER_TEST阶段(依次执行30个查询)CPU只用了百分之十几,也就是没有把整个集群的性能利用起来,导致跑得很慢。因此,如何调整参数,使整个集群发挥最大性能显得尤为重要。

阅读全文


Copyright © 2016 - 2018 LBD's Blog All Rights Reserved.

访客数 : | 访问量 :