'IT' 카테고리의 글 목록

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

String Matching in an Array

Given an array of string words, return all strings in words that are a substring of another word. You can return the answer in any order. Example 1:Input: words = ["mass","as","hero","superhero"]Output: ["as","hero"]Explanation: "as" is substring of "mass" and "hero" is substring of "superhero".["hero","as"] is also a valid answer. Example 2:Input: words = ["leetcode","et","code"]Output: ["et","..

IT/LeetCode 2025. 2. 24. 13:28

Pyspark 사용예 (HDFS)

from pyspark.sql import SparkSession# Spark 세션 생성spark = SparkSession.builder \ .appName("ETL Example") \ .getOrCreate()# 1. 데이터 추출 (Extract)# HDFS에서 CSV 파일 읽기input_path = "hdfs://namenode:8020/path/to/input/data.csv"df = spark.read.csv(input_path, header=True, inferSchema=True)# 2. 데이터 변환 (Transform)# 예: 특정 열의 값을 변경하거나 새로운 열 추가transformed_df = df.withColumn("new_column", df["existing_colu..

IT/spark 2025. 2. 18. 11:04

Spark vs Sqoop

Sqoop1. Apache Sqoop 사용 이유목적: RDB에서 데이터를 HDFS, S3 등 분산 데이터 스토리지로 이관하기 위해 사용.주요 기능:빠른 데이터 분석: 구조화된 데이터와 비구조화된 데이터를 결합하여 분석.부하 균형: 추가 저장소 및 처리 관리.병렬 데이터 전송: 고속 데이터 파싱을 위한 필요 충족.데이터 복사: 외부 소스에서 Hadoop으로 빠르게 데이터 이동.자동화된 프로세스: 효율적인 운영 가능.다양한 데이터 타입 지원: decimal, unsigned bigint 등.2. 한계점비효율적인 연결: JDBC 연결로 인해 추가 과정 필요.원자성: 각 단계가 원자성을 띄어 멈추거나 재시작 불가.서버 성능 의존: RDBMS 성능에 따라 작업 효율성 달라짐.속도 문제: MapReduce 기반으로..

IT/Airflow 2025. 2. 18. 10:58

kubectl 의 주요 명령어

kubectl get pods: 현재 클러스터의 모든 파드를 나열합니다. kubectl get pods kubectl describe pod: 특정 파드의 세부 정보를 표시합니다. kubectl describe pod my-pod kubectl create deployment: 새로운 디플로이먼트를 생성합니다. kubectl create deployment my-deployment --image=my-image kubectl delete pod: 특정 파드를 삭제합니다. kubectl delete pod my-pod kubectl apply -f: YAML 또는 JSON 파일을 사용하여 리소스를 생성 또는 업데이트합니다. kubectl apply -f my-manifest.yaml kubectl logs..

IT/kubenetes 2024. 2. 17. 23:39

OpenSearch Service 클러스터에서의 인덱싱 성능 개선

각 노드의 적절한 샤드수 확인하기 샤드가 수집하려는 인덱스의 데이터 노드에 고르게 분산되어 있는지 확인합니다. 샤드가 고르게 분산되었는지 확인하는 공식 인덱스의 샤드 수 = k*(데이터 노드 수). 여기서 k는 노드당 샤드 수 예를 들어 인덱스에 샤드 24개가 있고 데이터 노드가 8개인 경우, OpenSearch Service에서 각 노드에 샤드 3개를 할당 refresh_interval을 60초 이상으로 늘림 문서를 검색할 수 있도록 OpenSearch Service 인덱스를 새로 고침. 인덱스를 새로 고치려면 스레드 인덱싱에 사용한 것과 동일한 리소스가 필요함. 기본 새로 고침 간격은 1초. 새로 고침 간격을 늘리면 데이터 노드가 API 호출 횟수를 줄임. 새로 고침 간격은 새로 고침 간격의 길이에 ..

IT/AWS 2024. 2. 17. 23:25

OpenSearch Service 클러스터의 검색 대기 시간 급증 문제를 해결

OpenSearch Service 클러스터의 검색 대기 시간 급증 문제를 해결 방법 클러스터에 프로비저닝된 리소스가 부족한지 확인 CloudWatch의 ThreadpoolSearchRejected 지표를 사용하여 검색 거부를 확인 검색 느린 로그 API 및 프로파일 API 사용 504 게이트웨이 시간 초과 오류 해결 검색 요청 시, OpenSearch Service는 왕복 시간 왕복 = 쿼리가 쿼리 단계에서 소비한 시간 + 가져오기 단계에서 보낸 시간 + 대기열에서 보낸 시간 + 네트워크 대기 시간 쿼리 단계에서의 소비시간 : Amazon CloudWatch 의 SearchLatency 지표에서 확인 클러스터에 프로비저닝된 리소스가 부족한지 확인 클러스터에 프로비저닝된 리소스가 충분하지 않으면 검색 대기..

IT/AWS 2024. 2. 17. 21:53

NLB load balancing

이슈 zone A에 서버 한 대, zone C에 서버 두 대 운영 중. cross zone load balancing을 사용하지 않으면 zone A에 50%, zone C에 50% 분산하고 zone C에서 서버 두 대로 25%, 25% 분산할 것이라 예상했는데 그러지 않음. 클라이언트에서 5000개의 요청을 보내면 zone A, zone C 에서 각각 2500개의 요청을 처리하는 것은 확인. zone C에서 각 서버가 1250개씩 요청을 처리할 것이라고 기대했는데 그러지 않고 한 서버가 요청을 더 많이 처리해 부하가 발생. cross load balancing 동작에 대해 확인 가능하신 부분이 있다면 확인 요청. 체크포인트 교차 영역 로드밸런싱이 활성화 되면 AZ에 관계없이 등록된 각 대상이 NLB 노드..

IT/AWS 2024. 2. 17. 15:26

AWS VPN

AWS VPN란 Amazon Virtual Private Network의 약자로, AWS 클라우드와 온프레미스 네트워크 간의 안전한 연결을 제공하는 서비스 이를 통해 사용자는 AWS 리소스에 안전하게 액세스하거나 온프레미스 인프라스트럭처와의 통신을 보호할 수 있음 사내 데이터 센터 또는 온프레미스 네트워크와 AWS 클라우드 간의 안전한 통신을 가능하게 하며, 데이터의 안전성과 보안을 유지하면서 하이브리드 클라우드 환경에서의 작업을 간편하게 함 주요 특징 가상 프라이빗 네트워크 연결 : AWS VPN을 사용하면 가상 프라이빗 클라우드(VPC)와 온프레미스 네트워크 간에 안전한 연결을 설정할 수 있습니다. 안전한 터널링 : IPSec 또는 SSL VPN을 사용하여 데이터를 암호화하고 안전한 터널을 통해 전송..

IT/AWS 2024. 2. 17. 15:16

Lambda

AWS Lambda 서버를 프로비저닝하거나 관리하지 않고도 코드를 실행할 수 있게 해주는 컴퓨팅 서비스 Go, Java, JavaScript, Python, Ruby 등 다수의 언어로 람다함수 만들수 있음 Serverless 람다는 서버리스 컴퓨팅 서비스 서버리스는 개발자가 서버를 관리하지 않을 뿐 결국 클라우드 서비스가 처리하는 서버를 관리함 서버리스 컴퓨팅 기술은 클라우드가 어떤 방식으로 관리를 하는지를 기준으로 BaaS와 FaaS로 나눌 수 있음 1. BaaS (Backend as a Service) 보통의 서버 개발을 할때 서버뿐만이 아니라 데이터 저장을 위한 데이터베이스, 유저인증기술, 이미지를 저장할 공간 등도 함께 구성해야 함 BaaS는 위처럼 서버 개발에 필요한 데이터베이스, SNS로그인 ..

IT/AWS 2024. 2. 8. 14:13

Lambda

AWS Lambda 서버를 프로비저닝하거나 관리하지 않고도 코드를 실행할 수 있게 해주는 컴퓨팅 서비스 Go, Java, JavaScript, Python, Ruby 등 다수의 언어로 람다함수 만들수 있음 Serverless 람다는 서버리스 컴퓨팅 서비스 서버리스는 개발자가 서버를 관리하지 않을 뿐 결국 클라우드 서비스가 처리하는 서버를 관리함 서버리스 컴퓨팅 기술은 클라우드가 어떤 방식으로 관리를 하는지를 기준으로 BaaS와 FaaS로 나눌 수 있음 1. BaaS (Backend as a Service) 보통의 서버 개발을 할때 서버뿐만이 아니라 데이터 저장을 위한 데이터베이스, 유저인증기술, 이미지를 저장할 공간 등도 함께 구성해야 함 BaaS는 위처럼 서버 개발에 필요한 데이터베이스, SNS로그인 ..

IT/AWS 2024. 1. 24. 15:43

진지한 개발자

목록IT (42)

진지한 개발자

티스토리툴바