๋ชฉ๋ก๋ฐ์ดํ„ฐ/Spark (22)

๐Ÿฅ

[Spark] Spark Join ์ข…๋ฅ˜

์ŠคํŒŒํฌ์—์„œ Join ์‹œ์—๋Š” ์ƒํ™ฉ์— ๋”ฐ๋ผ Shuffle ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๊ณ , ์ด๋Š” executor ์‚ฌ์ด์˜ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์ด๋™์„ ์•ผ๊ธฐํ•œ๋‹ค. ์ŠคํŒŒํฌ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์กฐ์ธ์˜ ๋ฐฉ์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค. 1. Broadcast Hash Join ๋‘ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์กฐ์ธํ•  ๋•Œ ํ•œ ์ชฝ์ด ๋งค์šฐ ์ž‘๊ณ  ํ•œ ์ชฝ์€ ๋งค์šฐ ํฐ ์‚ฌ์ด์ฆˆ์˜ ๋ฐ์ดํ„ฐ์ผ ๋•Œ, ๋” ์ž‘์€ ์ชฝ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ Driver์— ์˜ํ•ด ๋ชจ๋“  executor๋กœ ๋ณต์‚ฌ๋˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์‚ฌ์ด์ฆˆ๊ฐ€ ์ž‘์€ ํ…Œ์ด๋ธ”์˜ ํ‚ค ๊ฐ’์„ ํ•ด์‹œ ํ…Œ์ด๋ธ”๋กœ ๋งŒ๋“ ๋‹ค. ํ•ด์‹œ ํ…Œ์ด๋ธ”์˜ ๊ฐ’์„ ํฐ ํ…Œ์ด๋ธ” ํŒŒํ‹ฐ์…˜์— ๋ณต์‚ฌํ•ด์ค€๋‹ค. ๊ฐ ํŒŒํ‹ฐ์…˜ ๋‚ด๋ถ€์—์„œ ์กฐ์ธ์„ ์ง„ํ–‰ํ•œ๋‹ค. ์ด ๋ฐฉ์‹์€ shuffle์„ ์ƒ๋žตํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ์ด๋™์— ๋”ฐ๋ฅธ ์ฝ”์ŠคํŠธ๊ฐ€ ์‚ฌ๋ผ์ง„๋‹ค. ๋ชจ๋“  executor์— ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์‚ฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ณต์‚ฌํ•˜๋ ค๋Š” dataset์ด ..

๋ฐ์ดํ„ฐ/Spark 2024. 3. 18. 00:03