🐥
[Spark] s3 데이터 dataframe으로 로드하기 본문
sparksession을 사용하여 가져올 수 있다. (Spark 2.0 이상)
import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("s3test").config("spark.some.config.option", True).getOrCreate()
df = spark.read.parquet("s3a://my-bucket/my/s3/path")
schema, option등 HiveContext를 이용하여 hdfs 파일을 로드할 때와 동일하게 옵션도 줄 수 있음
'데이터 > Spark' 카테고리의 다른 글
[Spark] Spark Join 종류 (0) | 2024.03.18 |
---|---|
[Spark] spark에서 s3 접근하기 (ACCESS_KEY, SECRET_KEY) (0) | 2023.12.19 |
[Spark] TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 오류 발생 시 해결 방법 (0) | 2023.05.22 |
[Spark] CSV 파일 로드하기 (0) | 2023.04.25 |
[Spark] 데이터 로드 시 partition 경로를 column으로 가져오기 (0) | 2022.04.27 |