๋ชฉ๋ก๋ถ๋ฅ ์ ์ฒด๋ณด๊ธฐ (59)
๐ฅ
https://archmond.net/archives/10976 Windows์ฉ PIP ์ค์นํ๊ธฐ(How to Install PIP For Python on Windows) - ์ํฌ๋ชฌ๋๋ท PIP๋? pip๋ ํ์ด์ฌ์ผ๋ก ์์ฑ๋ ํจํค์ง ์ํํธ์จ์ด๋ฅผ ์ค์น · ๊ด๋ฆฌํ๋ ํจํค์ง ๊ด๋ฆฌ ์์คํ ์ด๋ค. Python Package Index (PyPI)์์ ๋ง์ ํ์ด์ฌ ํจํค์ง๋ฅผ ๋ณผ archmond.net ์ ๋ธ๋ก๊ทธ ์ฐธ๊ณ
์นดํ์นด ๋ถ์ฐ์์คํ ๋ฉ์์ง ์ฒ๋ฆฌ broker์ ๋ชจ์ = kafka cluster zookeeper: ํด๋ฌ์คํฐ ์๋ฒ๋ค์ด ๊ณต์ ํ๋ ๋ฐ์ดํฐ ๊ด๋ฆฌ → broker์ ๋ถ์ฐ ์ฒ๋ฆฌ๋ ๋ฉ์์ง ํ์ ์ ๋ณด ๊ด๋ฆฌ(์นดํ์นด์ ๋ ธ๋ ๊ด๋ฆฌ, topic์ offset ์ ๋ณด ์ ์ฅ) broker: kafka server/ ํ ํด๋ฌ์คํฐ ๋ด์์ ์ฌ๋ฌ๊ฐ์ kafka server(broker)๊ฐ ๋์ํ๋ค. topic: ๋ฉ์์ง๊ฐ ์์ฑ๋๊ณ ์๋น๋๋ ์ฃผ์ . ๋ค๋ฅธ ํ ํฝ๋ค๊ณผ isolation (๊ตฌ๋ ํ consumer์๊ฒ๋ง ๋ณด์ฌ์ง) partition: ํ๋ ๋ค๋ชจ๋ค ํ ์ค. topic ๋ด์์ ๋ฉ์์ง๊ฐ ๋ถ์ฐ๋์ด ์ ์ฅ๋๋ ๋จ์. ํ topic์ ์๋ n๊ฐ์ partition์ ๋ฉ์์ง๊ฐ ๋ถ์ฐ๋์ด ์ ์ฅ. partition ๋ด์์๋ queue ํํ๋ก ์์ ๋ณด์ฅ (o..
Apache Flink streaming dataflow ์์ง์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฆฌ๋ฐ&๋ฐฐ์น ํ๋ซํผ streaming mode: native ๋ฐฉ์์ด ์๋๊ธฐ ๋๋ฌธ์ ์คํธ๋ฆผ ์ฒ๋ฆฌ์ ๋ํด spark ๋ณด๋ค low latency๋ฅผ ๋ณด์ธ๋ค * spark๋ micro-batch ๋ฐฉ์์ ํตํด ์คํธ๋ฆผ ๋ฐ์ดํฐ ์ฒ๋ฆฌ exactly-once ๋ณด์ฅ low-level building block stateful and timely stream processing์ ์ ๊ณต process function์ ํตํด datastream API์ ์๋ฒ ๋๋ ๋์ด ์์ ← ์ด์ชฝ์ ๋ง์ ์ ์ ์๊ฒ๋ ํ์๊ฐ ์์ ๊ฒ์ด๊ณ , core API๋ฅผ ๋ง์ด ์ธ ๋ฏํ๋ค. core API datastream API (bounded/unbounded stream) / d..
ํ๋ก, ํ๋ก ์์ฝ์์คํ ํ๋ก ๋์ฉ๋์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ์ฒ๋ฆฌํ ์ ์๋ ์คํ์์ค ํ๋ ์์ํฌ ๋๋์ผ๋ก ํ์ฅ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋น ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ์ ์ฌ์ฉ ์ปดํจํ ๋ถ์ ์ํฌ๋ก๋๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌ, ๋์ ์์ค์ ๋ด๊ตฌ์ฑ, ๊ฐ์ฉ์ฑ, ํ์ฅ์ฑ ์ ๊ณต ํ๋ก 2.0 YARN ์ถ๊ฐ MapReduce ์ด์ธ์ Spark, Giraph ๋ฑ ๋ค๋ฅธ ๋ถ์ฐ ์ฒ๋ฆฌ ๋ชจ๋ธ ์ํ ๊ฐ๋ฅ ํ๋ก ์์ฝ ์์คํ ํ๋ก์ ์ด๋ฃจ๊ณ ์๋ ๋ค์ํ ์๋ธ ํ๋ก์ ํธ๋ค์ ๋ชจ์ ํ๋ก์ ํ์ฉ์ฑ์ ๋์ด๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง ์ํํธ์จ์ด๊ฐ ์ถ๊ฐ๋์๋ค. ๋ฐ์ดํฐ ์์ง ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ์์ง ๋ก๊ทธ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค. i. Chukwa ๋๊ท๋ชจ ๋ถ์ฐ ์์คํ ๋ชจ๋ํฐ๋ง์ ์ํ ๋ฐ์ดํฐ ๋ก๊ทธ ์์ง ์๋ฃจ์ ๋ถ์ฐ๋์ด ์๋ ๋ ธ๋๋ค์ ๋ก๊ทธ ๋ฐ์ดํฐ๋ฅผ ์์ง ๋ชจ๋ํฐ๋ง ๋ก๊ทธ, ์ดํ๋ฆฌ์ผ์ด์ ๋ก๊ทธ, ํ๋ก ๋ก๊ทธ ๋ฑ ๋ถ์ฐ ์์คํ ..
github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetSchemaConverter.scala#L139 ์ ์ฝ๋์์ ๋ณด๋ฉด `typenotsupported`์ธ type๋ค์ด ๋ช๋ช ์๋ค. ํ์ผ์ด ์คํค๋ง๊ฐ unsupported type์ ํฌํจํ๊ณ ์์ผ๋ฉด Dataframe์ผ๋ก ์ฝ์ด์ฌ ์๊ฐ ์๋ค. org.apache.spark.sql.AnalysisException: Parquet type not supported Caused by: org.apache.spark.sql.AnalysisException: Parquet type not supported: INT3..