[회고] 개발팀내 서비스 장애 인지 구조 개선

태그
Review
3 more properties

배경 / 문제

서비스 운영 중 예상치 못한 에러 발생 시 개발팀의 인지 지연 문제가 빈번했다. 기존 대응 흐름은 다음과 같았다:
1.
고객이 에러를 경험
2.
CS팀에 문의 접수
3.
CS팀이 개발팀에 전달
4.
개발팀이 이슈 파악 및 대응
이러한 구조는 인지 지연 → 대응 지연 → 고객 불만으로 이어졌고,
즉각적인 모니터링 체계 부재가 주요 원인이었다.

해결 방안 검토

"개발자가 에러 발생을 즉시 인지하면 된다"는 관점에서 알림 시스템 도입을 검토했다.
그러나 다음과 같은 제약으로 인해 일반적인 솔루션은 채택이 어려웠다:
1.
SMS / Email 발송 기능 활용
기존 인프라에 있으나 금액 문제로 알림 수단으로는 부적합
2.
AWS CloudWatch 등 외부 모니터링 도구
보안 및 인가 이슈로 인해 외부 서비스 사용 제한
비용 이슈도 고려 대상

구현

사내 전사 메신저인 Naver WorksBot API를 활용해
내부 개발자에게 에러를 실시간으로 전달하는 구조를 도입했다.
에러 발생 시 내부 알림 API 호출
Works API 연동 미들서버를 통해 메시지 전송
ExceptionHandler에 직접 연동하여 즉시성 확보

회고

에러 발생 후 수 초 내 알림 전달 → 인지 지연 문제 대폭 감소
운영 도중 발생하는 서비스 장애에 대한 실시간 반응 가능
기존 인프라 제약 내에서 비용과 보안을 모두 고려한 실용적 대안
메시지 전송 로직을 핸들러에서 분리하여 ‘EventPublisher’ 기반 구조 도입 고려
code