CrashLoopBackOff가 뜰 때 가장 먼저 볼 것
Pod가 반복 재시작하면서 이전 로그와 event에 실제 원인이 남는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기Role Path
최근 학습 흐름을 기준으로 먼저 읽을 가이드를 추천합니다.
가이드
자주 찾는 장애 대응 주제를 먼저 모았습니다.
Pod가 반복 재시작하면서 이전 로그와 event에 실제 원인이 남는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기이미지 이름은 맞아 보이지만 tag, registry credential, network policy 때문에 pull이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기registry 인증, tag drift, node egress, mirror policy가 같은 오류처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기Pod 상태는 정상으로 보이지만 Service, Endpoint, NetworkPolicy, Ingress 경로가 끊긴 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기CoreDNS Pod는 정상처럼 보이지만 kube-dns 경로, upstream, node-local-dns, policy에서 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기빌드 로그는 정상인데 배포 대상 cluster나 runtime에서만 장애가 드러나는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기cache hit 이후에도 package.json, lockfile, artifact 기준이 서로 맞지 않는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기GitOps sync는 성공했지만 실제 rendered manifest와 기대 설정이 다른 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기오류 메시지
x509, CrashLoopBackOff, ImagePullBackOff처럼 검색되는 오류를 다룹니다.
Pod가 반복 재시작하면서 이전 로그와 event에 실제 원인이 남는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기이미지 이름은 맞아 보이지만 tag, registry credential, network policy 때문에 pull이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기registry 인증, tag drift, node egress, mirror policy가 같은 오류처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기서버 인증서 자체보다 chain, CA bundle, trust store 차이 때문에 TLS 검증이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기증상별 가이드
Pod는 Running인데 요청만 실패하거나, DNS 변경 후 일부 client만 이전 backend를 보는 상황을 분리합니다.
Pod 상태는 정상으로 보이지만 Service, Endpoint, NetworkPolicy, Ingress 경로가 끊긴 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기CoreDNS Pod는 정상처럼 보이지만 kube-dns 경로, upstream, node-local-dns, policy에서 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기GitOps sync는 성공했지만 실제 rendered manifest와 기대 설정이 다른 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기ConfigMap 업데이트 이후 envFrom, subPath, volume projection, rollout trigger 차이로 값이 갱신되지 않는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기같은 명령이 interactive shell에서는 성공하지만 cron이나 비대화형 환경에서만 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기기존 파일 권한은 맞지만 새로 생성되는 파일과 디렉터리의 group inheritance가 깨지는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기TTY, sudoers, environment reset, service user 차이 때문에 자동화 작업만 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기port rule은 있어 보이지만 zone, runtime/permanent drift, source binding, 상위 방화벽 때문에 연결이 실패하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기체크리스트
배포, cache, 권한, 방화벽, 인증서처럼 반복되는 장애 대응 순서를 정리합니다.
빌드 로그는 정상인데 배포 대상 cluster나 runtime에서만 장애가 드러나는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기cache hit 이후에도 package.json, lockfile, artifact 기준이 서로 맞지 않는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기X-Forwarded-Proto, secure proxy header, callback scheme mismatch, reverse proxy vendor 차이를 먼저 비교할 때 적합합니다.
가이드 보기OSPF adjacency down, neighbor not full, EXSTART stuck, failover 후 route loss, 라우팅 경로 체크리스트를 먼저 점검할 때 적합합니다.
가이드 보기Router on a Stick vs SVI, inter-VLAN routing 설계, gateway 위치, 장애 시 첫 점검 장비를 먼저 비교할 때 적합합니다.
가이드 보기카테고리
CI/CD, Kubernetes, Linux, Network, Security 영역을 먼저 훑을 수 있습니다.
서비스는 실패하지만 원인이 systemd unit, permission, inode, mount, process 중 어디인지 분리해야 하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기DNS, route, firewall, proxy, listener 상태가 같은 연결 실패처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기Kubernetes 장애가 Pod 상태, Service discovery, controller, storage, network 중 어디에서 시작됐는지 분리해야 하는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기인증, 인가, certificate, WAF, audit log 신호가 섞여 하나의 접근 실패처럼 보이는 상황을 검색한 사용자가 로그와 CLI 결과를 어떤 순서로 확인해야 하는지 정리합니다.
가이드 보기