데이터센터‧관리도구 이중화 미흡 지적
“서비스 안정화, 카카오의 최우선 과제”
【투데이신문 박주환 기자】 카카오가 지난 10월 발생한 서비스 장애 원인을 분석하고 재발방지대책을 발표했다.
카카오는 7일 오전 개발자 컨퍼런스 ‘이프 카카오 데브 2022’를 열고 판교 SK C&C 데이터센터 화재에 따른 서비스 장애 원인을 분석하는 한편, 재발방치대책을 공개했다.
이날 컨퍼런스에는 남궁훈‧고우찬 비상대책위원회 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장(그렙 CEO), 이채영 비상대책위원회 재발방지대책 소위원회 부위원장 등 4명이 연사로 나서 장애 원인에 대한 분석과 개선 사항을 공유했다.
서비스 먹통 사태 복구 지연 원인에 대해서는 이확영 원인조사소위원장이 발표에 나섰다. 그는 장애의 원인을 객관적으로 규명 및 공유하기 위해 영입된 외부 인사다.
서비스 장애 복구 지연의 주요 원인으로는 ▲데이터센터 간 이중화 미흡 ▲서비스 개발과 관리를 위한 운영 관리 도구 이중화 미흡 ▲이중화 전환 후 가용 자원 부족 등이 지목됐다.
이확영 원인조사소위원장은 특히 이중화에 필요한 상면(공간)의 부족과 대응책을 총괄할 컨트롤타워의 부재를 지적했다.
카카오는 이번 먹통 사태에서 포착된 문제 해결 및 인프라 개선을 위해 과거 원인 분석, 현재 재발방지책, 미래 투자 크게 3가지 관점에서 실천과제를 세우겠다고 강조했다.
이채영 재발방지대책소위원회 부위원장은 인프라 하드웨어 설비부터 서비스 애플리케이션까지 시스템 전체의 철저한 이중화 계획을 발표했다.
세부적으로는 데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영 도구 이중화, 모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영관리도구 삼중화 등이 적용될 전망이다.
미래 투자 부문에서는 자체 데이터센터 방재 대책 및 향후 5년간의 IT 엔지니어링 혁신 방안 등이 제시됐다.
특히 4600억원의 예산을 투입해 조성 중인 안산 데이터센터의 운영 안정성을 위한 IT 엔지니어링 전담 조직 및 인재 확보, 자연 재해 및 인위적 사고 피해 최소화를 위한 비상대응계획, 데이터센터 DR(Disaster Recovery) 체계 구축 방안 등이 공유됐다.
‘이프 카카오 데브 2022’ 둘째날 컨퍼런스에서는 ‘1015 회고’ 특별 세션 5개가 진행된다. 해당 세션에서는 데이터센터, 인프라 설비, 데이터, 서비스 플랫폼, 어플리케이션 등 다섯 개 영역에 적용하는 다중화 기술에 대한 설명이 이뤄질 예정이다.
남궁훈 비상대책위원회 재발방지대책 공동 소위원장은 “지금이라도 우리는 반성하고 개선해 나가려고 한다”라며 “미래에는 이런 사고가 발생하지 않도록 최선을 다할 것이고 앞으로도 카카오의 서비스의 안정화가 우리의 최우선 과제이며 사회적 책임이라는 것을 항상 명심할 것”이라고 말했다.
관련기사
주요기획: [도시 개발의 그림자, 구룡마을], [新중독 보고서], [디지털 신곡(神曲)]
좌우명: 시민의 역사를 기록하는 기자 다른기사 보기
