Notice
Recent Posts
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Tags more
Archives
관리 메뉴

🐥

[Spark] s3 데이터 dataframe으로 로드하기 본문

데이터/Spark

[Spark] s3 데이터 dataframe으로 로드하기

•8• 2023. 6. 1. 22:11

sparksession을 사용하여 가져올 수 있다. (Spark 2.0 이상)

import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("s3test").config("spark.some.config.option", True).getOrCreate()

df = spark.read.parquet("s3a://my-bucket/my/s3/path")

schema, option등 HiveContext를 이용하여 hdfs 파일을 로드할 때와 동일하게 옵션도 줄 수 있음

 

참고: https://stackoverflow.com/questions/44629156/how-to-read-parquet-data-from-s3-to-spark-dataframe-python