Pyspark 사용예 (HDFS)

Notice

Recent Posts

Recent Comments

Link

250x250

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

진지한 개발자

Pyspark 사용예 (HDFS) 본문

IT/spark

Pyspark 사용예 (HDFS)

제이_엔 2025. 2. 18. 11:04

728x90

from pyspark.sql import SparkSession

# Spark 세션 생성
spark = SparkSession.builder \
    .appName("ETL Example") \
    .getOrCreate()

# 1. 데이터 추출 (Extract)
# HDFS에서 CSV 파일 읽기
input_path = "hdfs://namenode:8020/path/to/input/data.csv"
df = spark.read.csv(input_path, header=True, inferSchema=True)

# 2. 데이터 변환 (Transform)
# 예: 특정 열의 값을 변경하거나 새로운 열 추가
transformed_df = df.withColumn("new_column", df["existing_column"] * 2) \
                   .filter(df["filter_column"] > 100)

# 3. 데이터 적재 (Load)
# 변환된 데이터를 HDFS에 저장 (Parquet 형식으로 저장)
output_path = "hdfs://namenode:8020/path/to/output/transformed_data.parquet"
transformed_df.write.parquet(output_path, mode="overwrite")

# Spark 세션 종료
spark.stop()

728x90

'IT > spark' 카테고리의 다른 글

PySpark Preprocessing (0)	2023.08.25
PySpark json flatten case (0)	2023.08.25
PySpark의 UDF 예제 (0)	2023.07.31
PySpark 특징 및 장점 (0)	2023.07.31
Pyspark 예제 실행 (0)	2023.04.19

'IT/spark' Related Articles

진지한 개발자

Pyspark 사용예 (HDFS) 본문

Pyspark 사용예 (HDFS)

'IT > spark' 카테고리의 다른 글

티스토리툴바