๋ชฉ๋ก๋ฐ์ดํฐ (40)
๐ฅ
์นดํ์นด ๋ถ์ฐ์์คํ ๋ฉ์์ง ์ฒ๋ฆฌ broker์ ๋ชจ์ = kafka cluster zookeeper: ํด๋ฌ์คํฐ ์๋ฒ๋ค์ด ๊ณต์ ํ๋ ๋ฐ์ดํฐ ๊ด๋ฆฌ → broker์ ๋ถ์ฐ ์ฒ๋ฆฌ๋ ๋ฉ์์ง ํ์ ์ ๋ณด ๊ด๋ฆฌ(์นดํ์นด์ ๋ ธ๋ ๊ด๋ฆฌ, topic์ offset ์ ๋ณด ์ ์ฅ) broker: kafka server/ ํ ํด๋ฌ์คํฐ ๋ด์์ ์ฌ๋ฌ๊ฐ์ kafka server(broker)๊ฐ ๋์ํ๋ค. topic: ๋ฉ์์ง๊ฐ ์์ฑ๋๊ณ ์๋น๋๋ ์ฃผ์ . ๋ค๋ฅธ ํ ํฝ๋ค๊ณผ isolation (๊ตฌ๋ ํ consumer์๊ฒ๋ง ๋ณด์ฌ์ง) partition: ํ๋ ๋ค๋ชจ๋ค ํ ์ค. topic ๋ด์์ ๋ฉ์์ง๊ฐ ๋ถ์ฐ๋์ด ์ ์ฅ๋๋ ๋จ์. ํ topic์ ์๋ n๊ฐ์ partition์ ๋ฉ์์ง๊ฐ ๋ถ์ฐ๋์ด ์ ์ฅ. partition ๋ด์์๋ queue ํํ๋ก ์์ ๋ณด์ฅ (o..
Apache Flink streaming dataflow ์์ง์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฆฌ๋ฐ&๋ฐฐ์น ํ๋ซํผ streaming mode: native ๋ฐฉ์์ด ์๋๊ธฐ ๋๋ฌธ์ ์คํธ๋ฆผ ์ฒ๋ฆฌ์ ๋ํด spark ๋ณด๋ค low latency๋ฅผ ๋ณด์ธ๋ค * spark๋ micro-batch ๋ฐฉ์์ ํตํด ์คํธ๋ฆผ ๋ฐ์ดํฐ ์ฒ๋ฆฌ exactly-once ๋ณด์ฅ low-level building block stateful and timely stream processing์ ์ ๊ณต process function์ ํตํด datastream API์ ์๋ฒ ๋๋ ๋์ด ์์ ← ์ด์ชฝ์ ๋ง์ ์ ์ ์๊ฒ๋ ํ์๊ฐ ์์ ๊ฒ์ด๊ณ , core API๋ฅผ ๋ง์ด ์ธ ๋ฏํ๋ค. core API datastream API (bounded/unbounded stream) / d..
ํ๋ก, ํ๋ก ์์ฝ์์คํ ํ๋ก ๋์ฉ๋์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ์ฒ๋ฆฌํ ์ ์๋ ์คํ์์ค ํ๋ ์์ํฌ ๋๋์ผ๋ก ํ์ฅ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋น ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ์ ์ฌ์ฉ ์ปดํจํ ๋ถ์ ์ํฌ๋ก๋๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌ, ๋์ ์์ค์ ๋ด๊ตฌ์ฑ, ๊ฐ์ฉ์ฑ, ํ์ฅ์ฑ ์ ๊ณต ํ๋ก 2.0 YARN ์ถ๊ฐ MapReduce ์ด์ธ์ Spark, Giraph ๋ฑ ๋ค๋ฅธ ๋ถ์ฐ ์ฒ๋ฆฌ ๋ชจ๋ธ ์ํ ๊ฐ๋ฅ ํ๋ก ์์ฝ ์์คํ ํ๋ก์ ์ด๋ฃจ๊ณ ์๋ ๋ค์ํ ์๋ธ ํ๋ก์ ํธ๋ค์ ๋ชจ์ ํ๋ก์ ํ์ฉ์ฑ์ ๋์ด๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง ์ํํธ์จ์ด๊ฐ ์ถ๊ฐ๋์๋ค. ๋ฐ์ดํฐ ์์ง ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ์์ง ๋ก๊ทธ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค. i. Chukwa ๋๊ท๋ชจ ๋ถ์ฐ ์์คํ ๋ชจ๋ํฐ๋ง์ ์ํ ๋ฐ์ดํฐ ๋ก๊ทธ ์์ง ์๋ฃจ์ ๋ถ์ฐ๋์ด ์๋ ๋ ธ๋๋ค์ ๋ก๊ทธ ๋ฐ์ดํฐ๋ฅผ ์์ง ๋ชจ๋ํฐ๋ง ๋ก๊ทธ, ์ดํ๋ฆฌ์ผ์ด์ ๋ก๊ทธ, ํ๋ก ๋ก๊ทธ ๋ฑ ๋ถ์ฐ ์์คํ ..
github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetSchemaConverter.scala#L139 ์ ์ฝ๋์์ ๋ณด๋ฉด `typenotsupported`์ธ type๋ค์ด ๋ช๋ช ์๋ค. ํ์ผ์ด ์คํค๋ง๊ฐ unsupported type์ ํฌํจํ๊ณ ์์ผ๋ฉด Dataframe์ผ๋ก ์ฝ์ด์ฌ ์๊ฐ ์๋ค. org.apache.spark.sql.AnalysisException: Parquet type not supported Caused by: org.apache.spark.sql.AnalysisException: Parquet type not supported: INT3..
Least Square Regression X์ first column์ 1 ์ถ๊ฐ X์ ๋ํ prediction์ ๋ค์๊ณผ ๊ฐ๋ค.(solution) ์์ ์์์ w*๋ฅผ ๊ตฌํ๋ฉด test set์ ๋ํด์๋ prediction์ ๊ตฌํ ์ ์๋ค. % Least Square Regression % wL = (XX'*XX)^-1*XX'*y_train YLresult = Xg*wL; Ridge Square Regression least square prediction์์ w์ ํฌ๊ธฐ๋ฅผ ์ ํํ๊ธฐ ์ํ term์ด ์ถ๊ฐ๋์๋ค. solution: RMSE Root-Mean-Square Error