Spark

[Spark] 실행 환경 (클러스터, 로컬) 설정

sol-hee 2022. 2. 25. 21:28

Spark는 여러 개의 서버 혹은 로컬 환경에서 구축할 수 있다.

그러면, 어떻게 환경을 세팅하고 셋팅된 정보를 얻을 수 있는가?
우선 local 환경에 spark를 구축하고 My app이라는 별칭을 붙여주었다.

from pyspark.conf import SparkConf
from pyspark.context import SparkContext

# config 
conf = SparkConf()
conf.setMaster("local").setAppName("My app")

conf.get("spark.master") # return 'local'
conf.get("spark.app.name") # return 'My app'
conf.toDebugString() # return 'spark.master=local\nspark.app.name=My app'

# Context
sc = SparkContext(conf=conf)
sc.master # return 'local'

우선 SparkConf 메서드를 사용해서 Master(url 혹은 local)App name 을 설정해줄 수 있다.( pyspark api 문서 참고 )

conf.get 을 통해서 마스터 노드 환경과 app name에 관한 정보를 얻을 수 있다.
혹은 SparkContext 인스턴스 할당 후 네임스페이스에 접근해 master가 어디에 설정되어 있는지 확인할 수 있다.

 

'Spark' 카테고리의 다른 글

[Glue Job] File already exists  (0) 2023.07.02