1. 首页
  2. 大数据
  3. Impala教程

【Impala教程】(二)Impala架构和工作流程

架构

首先需要知道Impala的三个核心组件以及其对应的实例:
Statestore Daemon —–>statestored
对impalad做一个健康检查:资源信息,节点状态等,且负责query的调度。
Catalog Daemon —–>catalogd
同步元数据信息,当hive中数据发生更改的时候,会同步到各个impala中。但是不够智能,比如你在hive创建了一个表之后,实时查询impala是没有同步的,需要手工刷新。
Impala Daemon —–>impalad
最核心的,真正用于查询的工作节点。会接收client、hue、jdbc或者odbc请求、执行查询并返回给中心协调节点,且与statestore保持通信,汇报工作。

工作流程

【Impala教程】(二)Impala架构和工作流程

  • 由Client发送一个执行SQL到任意一台Impalad
  • QueryPlanner接受到客户端Sql后解释为真正的执行计划
  • Query Coordinator 是中心协调节点,调度任务,Query Coordinator分配任务到Impalad的所有节点。(请求的时候可以指定请求哪一台impalad,假如你请求第二台,那么第二台就作为中心协调节点)
  • 各个Impalad节点的Query Executor 进行执行SQL工作
  • 执行SQL结束以后,将结果返回给Query Coordinator
  • 再由Query Coordinator汇总之后将结果返回给Client(所以要注意一个问题,如果要做聚合操作的话,一般是选择内存最大的那台作为中心协调节点)

BDStar原创文章。发布者:Liuyanling,转载请注明出处:http://bigdata-star.com/archives/1345

发表评论

登录后才能评论

联系我们

562373081

在线咨询:点击这里给我发消息

邮件:562373081@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code