진지한 개발자

PySpark json flatten case 본문

IT/spark

PySpark json flatten case

제이_엔 2023. 8. 25. 11:26
728x90
data1 = spark.read.parquet(path)
json_schema = spark.read.json(data1.rdd.map(lambda row: row.json_col)).schema
data2 = data1.withColumn("data", from_json("json_col", json_schema))
col1 = datat2.columns
col1.remove("data")
col2 = data2.select("data.*").columns
append_str = "data."
col3 = [append_str + val for val in col2]
col_list = col1 + col3
data3 = data2.select(*col_list).drop("json_col")

 

728x90

'IT > spark' 카테고리의 다른 글

Pyspark 사용예 (HDFS)  (0) 2025.02.18
PySpark Preprocessing  (0) 2023.08.25
PySpark의 UDF 예제  (0) 2023.07.31
PySpark 특징 및 장점  (0) 2023.07.31
Pyspark 예제 실행  (0) 2023.04.19