PySpark json flatten case

Notice

Recent Posts

Recent Comments

Link

250x250

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

진지한 개발자

PySpark json flatten case 본문

IT/spark

PySpark json flatten case

제이_엔 2023. 8. 25. 11:26

728x90

data1 = spark.read.parquet(path)
json_schema = spark.read.json(data1.rdd.map(lambda row: row.json_col)).schema
data2 = data1.withColumn("data", from_json("json_col", json_schema))
col1 = datat2.columns
col1.remove("data")
col2 = data2.select("data.*").columns
append_str = "data."
col3 = [append_str + val for val in col2]
col_list = col1 + col3
data3 = data2.select(*col_list).drop("json_col")

728x90

'IT > spark' 카테고리의 다른 글

Pyspark 사용예 (HDFS) (0)	2025.02.18
PySpark Preprocessing (0)	2023.08.25
PySpark의 UDF 예제 (0)	2023.07.31
PySpark 특징 및 장점 (0)	2023.07.31
Pyspark 예제 실행 (0)	2023.04.19

'IT/spark' Related Articles

Pyspark 사용예 (HDFS) 2025.02.18
PySpark Preprocessing 2023.08.25
PySpark의 UDF 예제 2023.07.31
PySpark 특징 및 장점 2023.07.31

진지한 개발자

PySpark json flatten case 본문

PySpark json flatten case

'IT > spark' 카테고리의 다른 글

티스토리툴바