목록전체 글 (59)
🐥
sparksession을 사용하여 가져올 수 있다. (Spark 2.0 이상) import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("s3test").config("spark.some.config.option", True).getOrCreate() df = spark.read.parquet("s3a://my-bucket/my/s3/path") schema, option등 HiveContext를 이용하여 hdfs 파일을 로드할 때와 동일하게 옵션도 줄 수 있음 참고: https://stackoverflow.com/questions/44629156/how-to-read-parquet-data-from-s..
뮨제상황 dataframe 두 개를 조인하려는데 아래와 같은 워닝이 주르륵 발생하더니 오류를 출력하고 어플리케이션이 종료됐다. ... 23/05/22 04:39:35 WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 23/05/22 04:39:35 WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 23/05/22 04:39:35 WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 23/05/22 04:39:36 WARN TaskMemoryMa..
parquet-tools 를 써도 되는데 parquet-cli가 좀 더 가벼워서 parquet-cli를 설치했다. (스키마만 확인하면 되는 사람...) (env) [testuser@test-server-1 ~]$ pip install parquet-cli Collecting parquet-cli Using cached parquet_cli-1.3-py2.py3-none-any.whl (3.6 kB) Collecting pyarrow>=0.9.0.post1 Using cached pyarrow-6.0.1-cp36-cp36m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (25.6 MB) Collecting pandas>=0.22.0 Using cached pandas-..
virtualenv vs venv venv는 표준 라이브러리라 설치 불필요하지만 virtualenv는 외부 라이브러리로 별도 설치 필요 속도: virtualenv가 더 빠름 확장성: virtualenv가 더 좋음 virtualenv는 python 버전이 다른 가상환경을 만들 수 있지만 venv는 불가능 virtualenv는 pip 업그레이드 가능하나 venv는 불가능 → virtualenv가 더 좋아보여서 virtualenv를 사용하기로 했다. 1. virtualenv 설치 [testuser@test-server-1 ~]$ python3 -m pip install --user -U virtualenv Collecting virtualenv Downloading https://files.pythonhost..