일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- S3
- node
- 농지연금
- Filter
- 임업후계자
- 공매
- 외국납부세액공제
- serverless
- 양도소득세
- route53
- Resolver
- python
- 금융소득
- 경매
- kubectl
- boto3
- 정책자금
- 산지연금
- 인덱싱
- 신탁공매
- 세금계산서
- AWS
- command
- Kubernetes
- pod
- 매입불공제
- 성능개선
- 리소스
- lambda
- OpenSearch
- Today
- Total
목록2025/02/18 (2)
진지한 개발자
from pyspark.sql import SparkSession# Spark 세션 생성spark = SparkSession.builder \ .appName("ETL Example") \ .getOrCreate()# 1. 데이터 추출 (Extract)# HDFS에서 CSV 파일 읽기input_path = "hdfs://namenode:8020/path/to/input/data.csv"df = spark.read.csv(input_path, header=True, inferSchema=True)# 2. 데이터 변환 (Transform)# 예: 특정 열의 값을 변경하거나 새로운 열 추가transformed_df = df.withColumn("new_column", df["existing_colu..
Sqoop1. Apache Sqoop 사용 이유목적: RDB에서 데이터를 HDFS, S3 등 분산 데이터 스토리지로 이관하기 위해 사용.주요 기능:빠른 데이터 분석: 구조화된 데이터와 비구조화된 데이터를 결합하여 분석.부하 균형: 추가 저장소 및 처리 관리.병렬 데이터 전송: 고속 데이터 파싱을 위한 필요 충족.데이터 복사: 외부 소스에서 Hadoop으로 빠르게 데이터 이동.자동화된 프로세스: 효율적인 운영 가능.다양한 데이터 타입 지원: decimal, unsigned bigint 등.2. 한계점비효율적인 연결: JDBC 연결로 인해 추가 과정 필요.원자성: 각 단계가 원자성을 띄어 멈추거나 재시작 불가.서버 성능 의존: RDBMS 성능에 따라 작업 효율성 달라짐.속도 문제: MapReduce 기반으로..