InfraTree | 장애 대응 가이드

Role Path

현재 역할 경로와 맞는 가이드

최근 학습 흐름을 기준으로 먼저 읽을 가이드를 추천합니다.

가이드

먼저 보면 좋은 가이드

자주 찾는 장애 대응 주제를 먼저 모았습니다.

CrashLoopBackOff 가이드

CrashLoopBackOff가 뜰 때 가장 먼저 볼 것

Pod가 반복 재시작하면서 이전 로그와 event에 실제 원인이 남는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

ImagePullBackOff 가이드

ImagePullBackOff에서 먼저 확인할 registry와 Secret

이미지 이름은 맞아 보이지만 tag, registry credential, network policy 때문에 pull이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

ImagePull 원인 가이드

ImagePullBackOff root cause를 분리하는 법

registry 인증, tag drift, node egress, mirror policy가 같은 오류처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

Service 트래픽 가이드

Pod는 Running인데 Service traffic만 실패하는 경우

Pod 상태는 정상으로 보이지만 Service, Endpoint, NetworkPolicy, Ingress 경로가 끊긴 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

DNS 장애 가이드

CoreDNS는 Running인데 DNS 조회만 실패할 때

CoreDNS Pod는 정상처럼 보이지만 kube-dns 경로, upstream, node-local-dns, policy에서 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

CI/CD 체크리스트

GitHub Actions 성공 후 rollout만 실패하는 경우

빌드 로그는 정상인데 배포 대상 cluster나 runtime에서만 장애가 드러나는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

캐시 장애 가이드

CI cache가 잘못된 dependency graph를 복원할 때

cache hit 이후에도 package.json, lockfile, artifact 기준이 서로 맞지 않는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

Helm values 가이드

Helm values merge와 환경 override drift 점검법

GitOps sync는 성공했지만 실제 rendered manifest와 기대 설정이 다른 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

오류 메시지

오류 메시지 기반 가이드

x509, CrashLoopBackOff, ImagePullBackOff처럼 검색되는 오류를 다룹니다.

CrashLoopBackOff 가이드

CrashLoopBackOff가 뜰 때 가장 먼저 볼 것

Pod가 반복 재시작하면서 이전 로그와 event에 실제 원인이 남는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

ImagePullBackOff 가이드

ImagePullBackOff에서 먼저 확인할 registry와 Secret

이미지 이름은 맞아 보이지만 tag, registry credential, network policy 때문에 pull이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

ImagePull 원인 가이드

ImagePullBackOff root cause를 분리하는 법

registry 인증, tag drift, node egress, mirror policy가 같은 오류처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

TLS 인증서 가이드

x509 unknown authority와 중간 인증서 누락 점검법

서버 인증서 자체보다 chain, CA bundle, trust store 차이 때문에 TLS 검증이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

증상별 가이드

정상처럼 보이지만 실패하는 상황

Pod는 Running인데 요청만 실패하거나, DNS 변경 후 일부 client만 이전 backend를 보는 상황을 분리합니다.

Service 트래픽 가이드

Pod는 Running인데 Service traffic만 실패하는 경우

Pod 상태는 정상으로 보이지만 Service, Endpoint, NetworkPolicy, Ingress 경로가 끊긴 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

DNS 장애 가이드

CoreDNS는 Running인데 DNS 조회만 실패할 때

CoreDNS Pod는 정상처럼 보이지만 kube-dns 경로, upstream, node-local-dns, policy에서 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

Helm values 가이드

Helm values merge와 환경 override drift 점검법

GitOps sync는 성공했지만 실제 rendered manifest와 기대 설정이 다른 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

ConfigMap reload 가이드

ConfigMap은 바뀌었는데 Pod가 이전 값을 계속 쓸 때

ConfigMap 업데이트 이후 envFrom, subPath, volume projection, rollout trigger 차이로 값이 갱신되지 않는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

cron 장애 가이드

수동 실행은 되는데 cron에서만 실패할 때

같은 명령이 interactive shell에서는 성공하지만 cron이나 비대화형 환경에서만 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

권한 장애 가이드

권한은 고쳤는데 새 디렉터리만 다른 group으로 생길 때

기존 파일 권한은 맞지만 새로 생성되는 파일과 디렉터리의 group inheritance가 깨지는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

sudo 자동화 가이드

shell에서는 sudo가 되는데 automation에서 실패할 때

TTY, sudoers, environment reset, service user 차이 때문에 자동화 작업만 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

firewalld 가이드

firewalld에서 열려 보이는데 접속은 계속 막힐 때

port rule은 있어 보이지만 zone, runtime/permanent drift, source binding, 상위 방화벽 때문에 연결이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

체크리스트

운영자가 바로 공유하기 쉬운 점검 순서

배포, cache, 권한, 방화벽, 인증서처럼 반복되는 장애 대응 순서를 정리합니다.

CI/CD 체크리스트

GitHub Actions 성공 후 rollout만 실패하는 경우

빌드 로그는 정상인데 배포 대상 cluster나 runtime에서만 장애가 드러나는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

캐시 장애 가이드

CI cache가 잘못된 dependency graph를 복원할 때

cache hit 이후에도 package.json, lockfile, artifact 기준이 서로 맞지 않는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

프록시 헤더 비교 가이드

NGINX와 Azure 프록시 헤더 차이로 로그인 콜백이 꼬일 때

X-Forwarded-Proto, secure proxy header, callback scheme mismatch, reverse proxy vendor 차이를 먼저 비교할 때 적합합니다.

가이드 보기

OSPF 점검 가이드

OSPF adjacency가 안 잡힐 때 체크리스트

OSPF adjacency down, neighbor not full, EXSTART stuck, failover 후 route loss, 라우팅 경로 체크리스트를 먼저 점검할 때 적합합니다.

가이드 보기

라우팅 비교 가이드

Router on a Stick과 SVI를 실무에서 구분하는 법

Router on a Stick vs SVI, inter-VLAN routing 설계, gateway 위치, 장애 시 첫 점검 장비를 먼저 비교할 때 적합합니다.

가이드 보기

카테고리

영역별 기본 가이드

CI/CD, Kubernetes, Linux, Network, Security 영역을 먼저 훑을 수 있습니다.

Linux 장애 가이드

Linux 장애를 systemd, 권한, 파일시스템 신호로 나누는 법

서비스는 실패하지만 원인이 systemd unit, permission, inode, mount, process 중 어디인지 분리해야 하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

Network 장애 가이드

timeout과 connection refused를 네트워크 경로로 분리하는 법

DNS, route, firewall, proxy, listener 상태가 같은 연결 실패처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

Kubernetes 장애 가이드

Kubernetes 장애를 Pod, Service, rollout 경계로 나누는 법

Kubernetes 장애가 Pod 상태, Service discovery, controller, storage, network 중 어디에서 시작됐는지 분리해야 하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

Security 장애 가이드

IAM, TLS, WAF 장애를 보안 운영 흐름으로 나누는 법

인증, 인가, certificate, WAF, audit log 신호가 섞여 하나의 접근 실패처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.

가이드 보기

인프라 장애 대응 가이드 모음

현재 역할 경로와 맞는 가이드

먼저 보면 좋은 가이드

CrashLoopBackOff가 뜰 때 가장 먼저 볼 것

ImagePullBackOff에서 먼저 확인할 registry와 Secret

ImagePullBackOff root cause를 분리하는 법

Pod는 Running인데 Service traffic만 실패하는 경우

CoreDNS는 Running인데 DNS 조회만 실패할 때

GitHub Actions 성공 후 rollout만 실패하는 경우

CI cache가 잘못된 dependency graph를 복원할 때

Helm values merge와 환경 override drift 점검법

오류 메시지 기반 가이드

CrashLoopBackOff가 뜰 때 가장 먼저 볼 것

ImagePullBackOff에서 먼저 확인할 registry와 Secret

ImagePullBackOff root cause를 분리하는 법

x509 unknown authority와 중간 인증서 누락 점검법

정상처럼 보이지만 실패하는 상황

Pod는 Running인데 Service traffic만 실패하는 경우

CoreDNS는 Running인데 DNS 조회만 실패할 때

Helm values merge와 환경 override drift 점검법

ConfigMap은 바뀌었는데 Pod가 이전 값을 계속 쓸 때

수동 실행은 되는데 cron에서만 실패할 때

권한은 고쳤는데 새 디렉터리만 다른 group으로 생길 때

shell에서는 sudo가 되는데 automation에서 실패할 때

firewalld에서 열려 보이는데 접속은 계속 막힐 때

운영자가 바로 공유하기 쉬운 점검 순서

GitHub Actions 성공 후 rollout만 실패하는 경우

CI cache가 잘못된 dependency graph를 복원할 때

NGINX와 Azure 프록시 헤더 차이로 로그인 콜백이 꼬일 때

OSPF adjacency가 안 잡힐 때 체크리스트

Router on a Stick과 SVI를 실무에서 구분하는 법

영역별 기본 가이드

Linux 장애를 systemd, 권한, 파일시스템 신호로 나누는 법

timeout과 connection refused를 네트워크 경로로 분리하는 법

Kubernetes 장애를 Pod, Service, rollout 경계로 나누는 법

IAM, TLS, WAF 장애를 보안 운영 흐름으로 나누는 법