๐ฅ
parquet ํ์ผ ๊ตฌ์กฐ ๋ณธ๋ฌธ
https://parquet.apache.org/docs/file-format/
File Format
Documentation about the Parquet File Format.
parquet.apache.org
ํ์์ ๊ฐ์ด ํ์ด์ฌ์์ parquet ํฌ๋งท์ ํ์ผ ๋ก๋ํ๋ ค๋๋ฐ ์๊พธ parquet์ด ์๋๋ผ๋ ์๋ฌ๊ฐ ๋ฐ์ํ๋ค.
parquet ํ์ผ์ด ์๋๋ฆฌ๊ฐ ์๋๋ฐ.. ํ๋ค๊ฐ parquet์ ๊ตฌ์กฐ์ ๋ํด์ ์์๋ณด๊ฒ ๋์๋ค.
๋ฌธ์ ์ ํ์ผ์ ๋ง์ง๋ง์ Magic Number 4byte ์ค 2byte๊ฐ ์์๋ค. ์๋ง ํ์ผ ์ฐ๋ค๊ฐ ์ค๊ฐ์ ํ๋ก์ธ์ค๊ฐ ๋๊ธด ๋ฏ ํ๋ค.
ํ์ผ ์์ฒด๊ฐ ์๋ชป๋ ๊ฑด ์๋๋ผ ๊ทธ๋ฅ ๋ง์ง๋ง 2๊ฐ byte๋ง ์ถ๊ฐํ๋ค.
์๋์ ๊ฐ์ด head์ tail์ ์ ์์ ์ผ๋ก magic number๊ฐ ์ฐ์ธ ํ์ผ์ ๊ฒฝ์ฐ ์ ์์ ์ผ๋ก ๋ก๋๋จ์ ํ์ธํ ์ ์์๋ค.
[testuser@test-server-1 ~]$ hexdump -C testfile.parquet | head -n 1
00000000 50 41 52 31 15 04 15 10 15 32 4c 15 02 15 04 12 |PAR1.....2L.....|
[testuser@test-server-1 ~]$ hexdump -C testfile.parquet | tail -n 3
002197a0 00 00 1c 00 00 1c 00 00 00 ed 07 00 00 50 41 52 |.............PAR|
002197b0 31 |1|
002197b1
'๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Airflow] Telegram ์๋ฆผ operator ๋ง๋ค๊ธฐ (requests ์ฌ์ฉ) (0) | 2024.03.29 |
---|---|
[Kafka] kafka produce ํ๊ธฐ (with C) (0) | 2023.08.31 |
Python์ ํตํด trino ์ ์ (0) | 2023.06.16 |
TRINO -> Hive metastore ์ฌ์ฉ ์ HIVE_METASTORE_ERROR ์ค๋ฅ ์กฐ์น (0) | 2023.04.21 |
Least Square / Ridge Regression, RMSE (0) | 2018.10.07 |