[회고] 개발팀내 서비스 장애 인지 구조 개선

태그

Review

3 more properties

배경 / 문제

서비스 운영 중 예상치 못한 에러 발생 시 개발팀의 인지 지연 문제가 빈번했다. 기존 대응 흐름은 다음과 같았다:

고객이 에러를 경험

CS팀에 문의 접수

CS팀이 개발팀에 전달

개발팀이 이슈 파악 및 대응

이러한 구조는 인지 지연 → 대응 지연 → 고객 불만으로 이어졌고,

즉각적인 모니터링 체계 부재가 주요 원인이었다.

"개발자가 에러 발생을 즉시 인지하면 된다"는 관점에서 알림 시스템 도입을 검토했다.

그러나 다음과 같은 제약으로 인해 일반적인 솔루션은 채택이 어려웠다:

SMS / Email 발송 기능 활용 

•

기존 인프라에 있으나 금액 문제로 알림 수단으로는 부적합

AWS CloudWatch 등 외부 모니터링 도구 

•

보안 및 인가 이슈로 인해 외부 서비스 사용 제한

•

비용 이슈도 고려 대상

사내 전사 메신저인 Naver Works의 Bot API를 활용해

내부 개발자에게 에러를 실시간으로 전달하는 구조를 도입했다.

•

에러 발생 시 내부 알림 API 호출

•

Works API 연동 미들서버를 통해 메시지 전송

•

ExceptionHandler에 직접 연동하여 즉시성 확보

•

에러 발생 후 수 초 내 알림 전달 → 인지 지연 문제 대폭 감소

•

운영 도중 발생하는 서비스 장애에 대한 실시간 반응 가능

•

기존 인프라 제약 내에서 비용과 보안을 모두 고려한 실용적 대안

•

메시지 전송 로직을 핸들러에서 분리하여 ‘EventPublisher’ 기반 구조 도입 고려

code