๋ชฉ๋ก๋ถ๋ฅ ์ ์ฒด๋ณด๊ธฐ (59)
๐ฅ
๋ถ์ฐ ํ๊ฒฝ์์๋ ๊ณ ๋ฅด์ง ๋ชปํ ๋ฆฌ์์ค, ๋ฐ์ดํฐ ๋ก๋ ๋ฑ task ์คํ ์๋๊ฐ ๋๋ ค์ง๋ ์ํฉ์ด ๋ง์ด ์๋ค. Speculative Execution ํ ๋จ๊ณ์์ ์ฌ๋ฌ ์์ ์ ์คํ ์๊ฐ์ด ๋ค๋ฅผ ์ ์๋ค. ๋ค๋ฅธ task์ ๋น๊ตํ์ฌ ํนํ ๋๋ฆฌ๊ฒ ์คํ๋๋ Task๊ฐ ์์ ์ ์๋๋ฐ, ํด๋ฌ์คํฐ ๋ด ๋ ธ๋์ ๊ตฌ์ฑ ์ฑ๋ฅ ์ฐจ์ด, ๋คํธ์ํฌ ๋ณ๋ ๋ฑ์ ์ด์ ๊ฐ ์์ ์ ์๋ค. speculative execution์ ๋์ผํ ๋จ๊ณ์ ์ค๋ซ๋์ ์๋ฃ๋์ง ์๋ ์์ ์ด ์์ ๊ฒฝ์ฐ, ๋ค๋ฅธ ๋ ธ๋์์ ๋์ผํ ์์ ์ ์์ํ๊ณ , ๋จผ์ ์๋ฃ๋๋ task๋ฅผ ์ฑ๊ณต์ฒ๋ฆฌํ๊ณ , ์ด์ธ์ ๋ค๋ฅธ ์๋๋ ์ข ๋ฃํ๋ค. ํด๋ฌ์คํฐ ๋ด ๋ ธ๋ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์๋ ๊ฒฝ์ฐ speculative execution ๊ธฐ๋ฅ์ ํ์ฑํํ๋ ๊ฒ์ด ์ข๋ค. ์ฃผ์ ๊ตฌ์ฑ ์ต์ spark.specul..
๋ฒ์ ์ ๋ณด Airflow 2.5.3 Python 3.8 ์์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ์ง๋ง 2.5.3 ๋ฒ์ ์ ์ฌ์ฉํ๊ณ ์๋ ํ๊ฒฝ์์๋ telegram provider ์ค์น๋ ๋๋๋ฐ connection type ๋ฆฌ์คํธ์๋ ์๋ด๋ค ใ (๋ฒ์ ํธํ์ฑ๋ ๋ค ๋ง์ถค) 2.6.3 ๋ฒ์ ์ผ๋ก ์ฌ๋ฆฌ๊ณ provider ์ฌ์ค์น ํ ๋ค์ ํ์ธํด๋ณด๋ operator๊ฐ ์ ๋์ํ๋ ๊ฑด ํ์ธํ๋๋ฐ.. ์ด์จ๋ 2.5.3 ๋ฒ์ ์์ ์ฌ์ฉํ๊ธฐ ์ํด request ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํด์ post ์์ฒญ์ ๋ณด๋ด๋ ๋ฐฉ์์ผ๋ก Webhook์ ๋ง๋ค์๋ค. 1. Telegram Connection ์์ฑ ์ด๊ฑด ๊ทธ๋ฅ hook์์ connection ์ ๋ณด ์ด๋ป๊ฒ ๊ฐ์ ธ์ฌ์ง ์ํฉ์ ๋ง๊ฒ ์ค์ ํ๋ฉด ๋ ๋ฏ ํ๋ค. ๋๊ฐ์ ๊ฒฝ์ฐ๋ ๊ทธ๋ฅ http connection type์ ์ฌ์ฉํ๋ค. `H..
๋ณดํธ๋์ด ์๋ ๊ธ์ ๋๋ค.
์คํํฌ์์ ๋ฐ์ดํฐ ๊ตฌ์กฐ ์ข ๋ฅ์๋ ์ธ ๊ฐ๊ฐ ์๋ค. RDD: spark 1.0 ๋์ Dataframe: spark 1.3 ๋์ Dataset: spark 1.6 ๋์ ์ฐธ๊ณ ๋ก spark 2.0๋ถํฐ dataframe api๋ datasets๊ณผ ํตํฉ๋์๋ค. (์ค์นผ๋ผ์ ์๋ฐ์์) ` Unifying DataFrames and Datasets in Scala/Java: Starting in Spark 2.0, DataFrame is just a type alias for Dataset of Row. ` 1. RDD๋? Reillient Distributed Data๋ก ํ์ด์ฐ์ฌ์ง๋ RDD๋ ํ๋ณต๋ ฅ ์๋/๋ถ๋ณ์ ๋ถ์ฐ ๋ฐ์ดํฐ ์ ๋๋ก ํด์๋ ์ ์๋ค. ์คํํฌ์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํฐ ๋จ์์ด๋ค. ๋ถ๋ณ์ ํน์ฑ RDD๋ ์ด๋ฆ(Re..
spark-submit ์ด๋? spark-submit์ ์คํํฌ application์ ํด๋ฌ์คํฐ์ ๋ฐฐํฌํ ๋ ์ฌ์ฉํ๋ ์คํฌ๋ฆฝํธ์ด๋ค. ์ด ์คํฌ๋ฆฝํธ๋ application์์ ์ฌ์ฉํ๋ ๋ฆฌ์์ค๋ฅผ ์ ์ดํ๋ ์ฌ๋ฌ ํ๋๊ทธ๋ฅผ ์ ๊ณตํ๋ค. spark-submit ์ต์ ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ... # other options \ [application-arguments] --py-files file1.py,file2.py,file3.zip my_python_file.py ์์ spark-submit ์ฃผ์ ์ต์ ์์์ ํ๋๊ทธ ๊ฐ๋ค์ ํ๋์ฉ ์ดํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค. master ํ๋๊ทธ (cluster manager) spark ..