๋ชฉ๋ก๋ฐ์ดํฐ (40)
๐ฅ
๋ฎจ์ ์ํฉ dataframe ๋ ๊ฐ๋ฅผ ์กฐ์ธํ๋ ค๋๋ฐ ์๋์ ๊ฐ์ ์๋์ด ์ฃผ๋ฅด๋ฅต ๋ฐ์ํ๋๋ ์ค๋ฅ๋ฅผ ์ถ๋ ฅํ๊ณ ์ดํ๋ฆฌ์ผ์ด์ ์ด ์ข ๋ฃ๋๋ค. ... 23/05/22 04:39:35 WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 23/05/22 04:39:35 WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 23/05/22 04:39:35 WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 23/05/22 04:39:36 WARN TaskMemoryMa..
data_3 = hc.read.\ csv('/my/path/partition={PARTITION}/*'.format(PARTITION=my_partition), header=False, schema=customSchema) # header๊ฐ ์์ ๊ฒฝ์ฐ schema๋ ๋ฐ๋ก ์์ด๋ ๋จ (header=True)
set hive.msck.repair.batch.size=1; set hive.msck.path.validation=ignore; Hive ์์ ์ ๋ช ๋ น์ด ์ฌ์ฉ ์์ ์๋์ ๊ฐ์ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค. Error: Error while processing statement: Cannot modify hive.msck.path.validation at runtime. It is not in list of params that are allowed to be modified at runtime (state=42000,code=1)โ hive-site์ ์๋ ์ค์ ๊ฐ ์ถ๊ฐ ํ ์ ์ ๋์ ํ์ธํจ key: hive.security.authorization.sqlstd.confwhitelist.append value: h..
io.trino.spi.TrinoException: testserver-1:9083: java.net.SocketTimeoutException: Read timed out at io.trino.plugin.hive.metastore.thrift.ThriftHiveMetastore.getPartitionNamesByFilter(ThriftHiveMetastore.java:1080) at io.trino.plugin.hive.metastore.thrift.BridgingHiveMetastore.getPartitionNamesByFilter(BridgingHiveMetastore.java:335) at io.trino.plugin.hive.metastore.ForwardingHiveMetastore.getPa..
https://parquet.apache.org/docs/file-format/ File Format Documentation about the Parquet File Format. parquet.apache.org ํ์์ ๊ฐ์ด ํ์ด์ฌ์์ parquet ํฌ๋งท์ ํ์ผ ๋ก๋ํ๋ ค๋๋ฐ ์๊พธ parquet์ด ์๋๋ผ๋ ์๋ฌ๊ฐ ๋ฐ์ํ๋ค. parquet ํ์ผ์ด ์๋๋ฆฌ๊ฐ ์๋๋ฐ.. ํ๋ค๊ฐ parquet์ ๊ตฌ์กฐ์ ๋ํด์ ์์๋ณด๊ฒ ๋์๋ค. ๋ฌธ์ ์ ํ์ผ์ ๋ง์ง๋ง์ Magic Number 4byte ์ค 2byte๊ฐ ์์๋ค. ์๋ง ํ์ผ ์ฐ๋ค๊ฐ ์ค๊ฐ์ ํ๋ก์ธ์ค๊ฐ ๋๊ธด ๋ฏ ํ๋ค. ํ์ผ ์์ฒด๊ฐ ์๋ชป๋ ๊ฑด ์๋๋ผ ๊ทธ๋ฅ ๋ง์ง๋ง 2๊ฐ byte๋ง ์ถ๊ฐํ๋ค. ์๋์ ๊ฐ์ด head์ tail์ ์ ์์ ์ผ๋ก magic number๊ฐ ์ฐ์ธ ํ์ผ์ ๊ฒฝ..