The components of the spark application

  1. Cluster Manager
  2. Driver
  3. Executor
  4. Session
  5. Job
  6. Stage
  7. task

Untitled

driver가 각 executor에다가 task를 해야 한다고 지시를 내리면 executor에서 실제로 task 연산을 수행하여 driver에 반환

Transformation, Action, Lazy Evaluation

Transformation

Action

What is Spark RDD

‘Resilient Distributed Dataset’의 약자로 스파크의 기본 추상화 객체다.

RDD는 보통 Spark 2.xx에서 지원되던 것으로 3.xx로 넘어온 지금인 잘 안쓰인다.