spark的资源管理standalone与yarn的区别


0

1.standalone方式也能指定资源如:cpu、内存,与yarn指定资源有什么不同?
2.standalone与yarn的关系?standalone与yarn同为资源管理,standastanlone为spark自带的资源管理,yarn模式下是standastanlone运行在yarn的container中吗?
3.测试使用standalone与yarn方式启动简单任务,standalone要比yarn快10-15s,为什么?
4.standalone方式启动任务要比yarn快。为什么要使用yarn方式进行资源管理?

2 答案

0

standalone 和 on yarn 都是 spark 的一种运行模式

standalone 模式:

  1. 不依赖其他任何组件
  2. 有 spark 自身来管理资源
  3. 有 master 和 worker 节点
  4. 资源调度器不够灵活,目前只支持 FIFO 模式的调度
  5. 只能以内存来管理资源

On Yarn 模式:

  1. spark 做为一个应用程序(application) 的方式运行在 yarn 上
  2. 不需要部署 spark 集群,没有 master 和 worker 节点
  3. 支持丰富的调度管理策略,常用的有 公平调度和容量调度
  4. 支持动态资源申请
  5. 支持 内存,cpu 来管理资源

至于测试的时候,会出现 standalone 会比 on yarn 快是正常的,但是不会说快的非常多,基本上性能是差不多的。
毕竟 on yarn 的时候,要比 standalone 多了与 yarn 交互的步骤

  好的,谢谢 standalone也支持配置多任务并行和cpu核数的吧? 我有试过standalone运行streaming、thrifyserver、spark app同时运行,并给每个应用分配cpu和内存。 我用的是spark2.3.4 - 冰玉 2020-01-19


0

好的,谢谢

standalone也支持配置多任务并行和cpu核数的吧?
我有试过standalone运行streaming、thrifyserver、spark app同时运行,并给每个应用分配cpu和内存。
我用的是spark2.3.4

  多任务并行和调度模式不是一会事的,还有你给任务分cpu和内存,是你人工指定的,并不是受资源管理器约束 - 拾肆 2020-01-19

  好的,我再研究研究,谢谢 - 冰玉 2020-01-19


我来回答

写文章

提问题