[Spark] s3 데이터 dataframe으로 로드하기

Notice

Recent Posts

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

관리 메뉴

🐥

[Spark] s3 데이터 dataframe으로 로드하기 본문

데이터/Spark

[Spark] s3 데이터 dataframe으로 로드하기

•8• 2023. 6. 1. 22:11

sparksession을 사용하여 가져올 수 있다. (Spark 2.0 이상)

import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("s3test").config("spark.some.config.option", True).getOrCreate()

df = spark.read.parquet("s3a://my-bucket/my/s3/path")

schema, option등 HiveContext를 이용하여 hdfs 파일을 로드할 때와 동일하게 옵션도 줄 수 있음

참고: https://stackoverflow.com/questions/44629156/how-to-read-parquet-data-from-s3-to-spark-dataframe-python

'데이터 > Spark' 카테고리의 다른 글

[Spark] Spark Join 종류 (0)	2024.03.18
[Spark] spark에서 s3 접근하기 (ACCESS_KEY, SECRET_KEY) (0)	2023.12.19
[Spark] TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 오류 발생 시 해결 방법 (0)	2023.05.22
[Spark] CSV 파일 로드하기 (0)	2023.04.25
[Spark] 데이터 로드 시 partition 경로를 column으로 가져오기 (0)	2022.04.27

'데이터/Spark' Related Articles

🐥

[Spark] s3 데이터 dataframe으로 로드하기 본문

[Spark] s3 데이터 dataframe으로 로드하기

'데이터 > Spark' 카테고리의 다른 글

티스토리툴바