목록데이터/Spark (22)
🐥
[Spark] 데이터 로드 시 partition 경로를 column으로 가져오기
sparkConf = SpartConf().setAppName("test") sc = SparkContext.getOrCreate(conf=spartConf) hc = HiveContext(sc) df = hc.read.option("basePath", '/Path-to-data/')\ .parquet('/Path-to-data/') /Path-to-data/partition1=x/partition2=y 디렉토리가 이런 구조로 되어있을 때 위와 같이 데이터 로드 시 basePath 옵션을 추가하면 파티션 정보(위의 코드에서는 partition1, partition2) 가 dataframe의 컬럼으로 로드된다.
데이터/Spark
2022. 4. 27. 17:19
[Spark]Parquet type not supported인 parquet file을 읽는 방법 - StructType을 사용해서 Custom Schema로 로드)
github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetSchemaConverter.scala#L139 위 코드에서 보면 `typenotsupported`인 type들이 몇몇 있다. 파케이 스키마가 unsupported type을 포함하고 있으면 Dataframe으로 읽어올 수가 없다. org.apache.spark.sql.AnalysisException: Parquet type not supported Caused by: org.apache.spark.sql.AnalysisException: Parquet type not supported: INT3..
데이터/Spark
2020. 10. 21. 22:44