Notice
Recent Posts
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Tags more
Archives
관리 메뉴

🐥

[Spark] 데이터 로드 시 partition 경로를 column으로 가져오기 본문

데이터/Spark

[Spark] 데이터 로드 시 partition 경로를 column으로 가져오기

•8• 2022. 4. 27. 17:19
sparkConf = SpartConf().setAppName("test")
sc = SparkContext.getOrCreate(conf=spartConf)
hc = HiveContext(sc)

df = hc.read.option("basePath", '/Path-to-data/')\
	.parquet('/Path-to-data/')

/Path-to-data/partition1=x/partition2=y

디렉토리가 이런 구조로 되어있을 때 위와 같이 데이터 로드 시 basePath 옵션을 추가하면 파티션 정보(위의 코드에서는 partition1, partition2) 가 dataframe의 컬럼으로 로드된다.