[Spark] ๋ฐ์ดํฐ ๋ก๋ ์ partition ๊ฒฝ๋ก๋ฅผ column์ผ๋ก ๊ฐ์ ธ์ค๊ธฐ
sparkConf = SpartConf().setAppName("test") sc = SparkContext.getOrCreate(conf=spartConf) hc = HiveContext(sc) df = hc.read.option("basePath", '/Path-to-data/')\ .parquet('/Path-to-data/') /Path-to-data/partition1=x/partition2=y ๋๋ ํ ๋ฆฌ๊ฐ ์ด๋ฐ ๊ตฌ์กฐ๋ก ๋์ด์์ ๋ ์์ ๊ฐ์ด ๋ฐ์ดํฐ ๋ก๋ ์ basePath ์ต์
์ ์ถ๊ฐํ๋ฉด ํํฐ์
์ ๋ณด(์์ ์ฝ๋์์๋ partition1, partition2) ๊ฐ dataframe์ ์ปฌ๋ผ์ผ๋ก ๋ก๋๋๋ค.