๐ฅ
parquet ํ์ผ ๊ตฌ์กฐ ๋ณธ๋ฌธ
https://parquet.apache.org/docs/file-format/
ํ์์ ๊ฐ์ด ํ์ด์ฌ์์ parquet ํฌ๋งท์ ํ์ผ ๋ก๋ํ๋ ค๋๋ฐ ์๊พธ parquet์ด ์๋๋ผ๋ ์๋ฌ๊ฐ ๋ฐ์ํ๋ค.
parquet ํ์ผ์ด ์๋๋ฆฌ๊ฐ ์๋๋ฐ.. ํ๋ค๊ฐ parquet์ ๊ตฌ์กฐ์ ๋ํด์ ์์๋ณด๊ฒ ๋์๋ค.
๋ฌธ์ ์ ํ์ผ์ ๋ง์ง๋ง์ Magic Number 4byte ์ค 2byte๊ฐ ์์๋ค. ์๋ง ํ์ผ ์ฐ๋ค๊ฐ ์ค๊ฐ์ ํ๋ก์ธ์ค๊ฐ ๋๊ธด ๋ฏ ํ๋ค.
ํ์ผ ์์ฒด๊ฐ ์๋ชป๋ ๊ฑด ์๋๋ผ ๊ทธ๋ฅ ๋ง์ง๋ง 2๊ฐ byte๋ง ์ถ๊ฐํ๋ค.
์๋์ ๊ฐ์ด head์ tail์ ์ ์์ ์ผ๋ก magic number๊ฐ ์ฐ์ธ ํ์ผ์ ๊ฒฝ์ฐ ์ ์์ ์ผ๋ก ๋ก๋๋จ์ ํ์ธํ ์ ์์๋ค.
[testuser@test-server-1 ~]$ hexdump -C testfile.parquet | head -n 1
00000000 50 41 52 31 15 04 15 10 15 32 4c 15 02 15 04 12 |PAR1.....2L.....|
[testuser@test-server-1 ~]$ hexdump -C testfile.parquet | tail -n 3
002197a0 00 00 1c 00 00 1c 00 00 00 ed 07 00 00 50 41 52 |.............PAR|
002197b0 31 |1|
002197b1
'๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Airflow] Telegram ์๋ฆผ operator ๋ง๋ค๊ธฐ (requests ์ฌ์ฉ) (0) | 2024.03.29 |
---|---|
[Kafka] kafka produce ํ๊ธฐ (with C) (0) | 2023.08.31 |
Python์ ํตํด trino ์ ์ (0) | 2023.06.16 |
TRINO -> Hive metastore ์ฌ์ฉ ์ HIVE_METASTORE_ERROR ์ค๋ฅ ์กฐ์น (0) | 2023.04.21 |
Least Square / Ridge Regression, RMSE (0) | 2018.10.07 |