장애 관리 방안

장애 관리 방안
Junho Lee

1. 개요
2. 장애 관리 체계
3. 장애 관리 참조 모델
4. 장애 관리 체계 구축 후 기대 효과
2
목차

•현행 시스템의 각종 이슈에 대하여 장애 관점의 정리가 필요함
•여러 요소 중에서 장애 관리, 문제 관리의 적절한 분류가 필요함
q IT 관점에서 장애란 정보시스템의 통제 가능한 요인들로 인한 기능저하, 오류, 고장을
의미합니다.
3
1. 개요>장애의 정의
발생원인 관점에서 직접적으로
영향을 미치는 인적 장애, 시스
템 장애, 기반구조 장애(운영 장
애, 설비 장애 등 포함) 등과 같
은 통제 가능한 요인들에 의한
정보시스템의 기능저하, 오류,
고장’을 의미한다.
장애(Incident)의 정의

•장애 식별 및 장애 범위 지정이 필요함
•장애에 대하여 문제의 분류 방법이 필요함
q 장애는 프로세스 관점, 발생 원인 관점, 위협 요소 관점, 발생 위치 관점으로 아래와 같이
분류할 수 있습니다.
4
1. 개요>장애의 종류
프로세스 관점
장애(Incident)
문제(Problem)
알려진 오류
(Known Error)
발생 원인 관점
인적 장애
시스템 장애
운
영
장
애기
술
적
장
애 기반 구조 장애
위협 요소 관점
불규칙적 장애
규칙적 장애
사
람
무
관
조직 내부인의
장애
조직 외부인의
장애
사
람
연
관
발생 위치 관점
Data
Process
System
Network
사람
환경
기타 유형 자산
무형 자산

•적합한 장애 등급 여부 확인 및 처리 방안 정의 필요함
•장애 등급에 대한 서비스 품질 관점의 정의 필요함
영향도
q 장애 등급이란 장애 복구 우선 순위를 의미하고 장애 영향도와 긴급도에 따라 등급을
책정합니다.
5
1. 개요>장애 등급의 분류
l영향도: 업무 영향 범위를 기준으로 정의
1. 낮음: 개인적인 업무
2. 중간: 일반 업무 프로세스의 기능
3. 높음: 특정 부서의 특정 업무
4. 매우 높음: 전체 조직과 관련된 업무 프로세스
l긴급도: 복구 지연 시간을 기준으로 정의
1. 낮음: 단순한 관리적 조치로 해결
2. 중간: 어느 정도 대응 시간을 가지고 해결
3. 높음: 가능한 신속한 해결
4. 매우 높음: 즉각적인 해결
영향도 낮음(3등급)
영향도 중간(2등급)
영향도 높음(1등급)
3급 장애
•1시간 내 미해결 시 보고
•1시간 간격으로 경과 보고
2급 장애
•20분 이내 보고
•30분 간격으로 경과 보고
1급 장애
4급 장애
•자체 해결
•등급 상향 시 보고
3급 장애
2급 장애
5급 장애
•자체 해결
4급 장애
•자체 해결
•등급 상향 시 보고
3급 장애
긴급도 높음(1등급) 긴급도 중간(2등급) 긴급도 낮음(3등급)
긴급도
예시

•장애 관리를 위한 조직 및 R&R이 요구됨
•문제 관리를 위한 조직 및 R&R이 요구됨
q 장애 처리를 위해서 6개의 관리 조직이 요구됩니다.
6
2. 장애 관리 체계>조직
장애관리
책임자
서비스
데스크
문제 관리
조직
운영 조직 개발 조직 공급 업체
(시스템 운영실)
(인프라 연구소)(인프라 운영팀)(보안 검증팀) (장비 공급사)(고객 만족실)
서비스
데스크
시스템
문제분석가
시스템
운영자
어플리케이션
개발팀
시스템
공급 업체
DBMS
문제분석가
DBMS
운영자
솔루션
공급 업체
네트워크
문제분석가
네트워크
운영자
보안
문제분석가
보안
운영자
어플리케이션
문제분석가
어플리케이션
운영자

장애 모니터링
q 장애 관리를 위한 프로세스는 8개의 세부 프로세스로 구성되어 있고, 이 중 문제 관리
프로세스는 7개로 구성되어 있습니다.
2. 장애 관리 체계>장애 관리 프로세스
장애 관리
책임자
서비스
데스크
문제 관리
조직
운영 조직
개발 조직
공급 업체
개인
장애처리
요청
모니터링
도구
장애
접수
신규
장애?
장애 등록 및
등급 지정
1차 해결
시도
해결?
장애
배정
2
차
해
결
시
도
해결?
장애
종료
프
로
세
스
점
검
YES
NO
YES
문제
등록
근본
원인
도출
해결
방안
선택
해결방안
모니터
해결
방안
실행
해결
방안
점검
문제
종료
NO
장애 관리
시스템 장애 관리 시스템
•장애 관리 프로세스의 정립이 필요함
•문제 관리 프로세스의 정립이 필요함
7
문제 관리

•장애 및 문제에 대한 성과 측정 지표 식별이 요구됨
•장애 및 문제에 대한 품질 지표 연계 필요함
q 장애에 대한 성과 측정은 장애 처리 절차에 따라 정의할 수 있습니다.
2. 장애 관리 체계>장애에 대한 성과 측정
8
장애 관리
책임자
서비스
데스크
문제 관리
조직
운영 조직
개발 조직
공급 업체
장애 처리
절차
장애
접수
장애
등록 및
등급 지정
1차 해결 장애 배정 2차 해결 문제 관리 장애 종료
프로세스
점검
알려진 오류에 대한 해결 시간
장애 감지
시간
동일 오류 재발 여부
원인 규명
결과
장애 해결
시간
원인 규명
횟수/시간
평균 가동률/등급별 장애 횟수

q A는 분기 별로 장애 건수, MTBSI, 가용성 등에 대한 목표치를 두고 실제 결과를 비교하여 성과
측정을 했습니다.
2. 장애 관리 체계>장애에 대한 성과 측정 예시
9
핵심 지표 1분기 2분기 3분기 집계
장애 내부 2 0 0 2
가용성
MTBSI 28.5d 100d 60d 63d
Availability 99.99% 100.0% 100.0% 99.99%
SDT 10m 0m 0m 3m
MDT 2m 0m 0m 0.6m
효율성 API 활용률 51% 51% 51% 51%
적시성 적시성 100% 96% 100% 99%
[기준:2009년 11월 20일]
핵심 지표(내부) 핵심 지표(외부 포함)
목표
장애 MTBSI SDT 활용률 적시성
2 40 20 76 97
*) 성과
핵심 지표 1분기 2분기 3분기 집계
장애 외부 포함 6 2 0 8
가용성
MTBSI 19.0d 60d 60d 46d
Availability 99.99% 100.0% 100.0% 99.99%
SDT 30m 6.6m 0m 12m
MDT 8m 2.6m 0m 3.5m
효율성 API 활용률 51% 51% 51% 51%
적시성 적시성 97% 96.6% 87% 94%
[기준:2009년 11월 20일]
목표
장애 MTBSI SDT 활용률 적시성
2 40 20 76 97
*) 성과
시
사
점
l 지속적인 API 리엔
지니어링 요구
시
사
점
l 장애가 빈번하게 발
생하였지만, SDT를 만
족함
0
20
40
60
80
100
장애
SDT
적시성활용률
MTBSI
목표
성과
0
20
40
60
80
100
장애
SDT
적시성활용률
MTBSI
목표
성과
*MTBSI: Mean Time Between System Incidents(평균 가동 시간, 시)
*MDT: Mean Detection Time(평균 감지 시간, 분)
*SDT: Service Down Time(서비스 다운 시간, 분)

q ITIL(IT Infrastructure Library)은 IT 전반적인 프로세스에 대한 Best Practice를 제시하고
있습니다.
3. 장애 관리 참조 모델>ITIL
10
Business, Customers, Users
Business
Strategy
Service
Planning
Organization
Planning
Service Level
Management
Availability
Management
System
Management
Capacity
Management
Network
Management
App & DB
Management
Storage
Management
Security
Management
Desktop
Management
IT - Business
Alignment
ITIL Service Delivery
Service
Continuity
Management
Financial
Management
Infrastructure Management
Incident
Management
Problem
Management
Release
Management
Configuration
Management
Change
Management
Service Desk
ITIL Service Support
Technology
Planning

q eTOM(Enhanced Telecom Operations Map)은 통신 사업자 영역의 비즈니스 표준 프로세스를
제시하고 있습니다(ITU-T).
3. 장애 관리 참조 모델>eTOM Level 1
11
장애 관리 영역

Resource Performance Management
q eTOM의 장애 관리 영역은 4개의 기능 모듈로 구분되어 있습니다.
3. 장애 관리 참조 모델>eTOM 장애 관리 기능 모델
12
Service Problem Management Service Quality Management
Resource Trouble Management
Survey & Analysis
Service Problem
Create Service
Trouble Report
Diagnose
Service Problem
Track & Manage
Service Problem
Report Service
Problem
Correct & Resolve
Service Problem
Close Service
Trouble Report
Monitor Service
Quality
Create Service
Performance
Degradation Report
Analyze Service
Quality
Improve Service
Quality
Report Service
Quality
Performance
Close Service
Performance
Degradation Report
Track & Manage
Service Quality
Performance
Resolution
Survey & Analysis
Resource Trouble
Create Resource
Trouble Report
Localize
Resource Trouble
Correct & Resolve
Resource Trouble
Track & Manage
Resource Trouble
Report
Resource Trouble
Close Resource
Trouble Report
Monitor Resource
Performance
Create Resource
Performance
Degradation Report
Analyze Resource
Performance
Control Resource
Performance
Report Resource
Performance
Close Resource
Performance
Degradation Report
Track & Manage
Resource
Performance
Resolution

q 장애 관리 체계 구축을 통해 Total Cost of Ownership을 절감시킬 수 있습니다.
7. 장애 관리 체계 구축 후 기대 효과
13
요구사항 정성적 기대 효과 정량적 기대 효과
명확한 장애 식별 가능함
장애 발생 시 조직 배분이
용이함
장애 등급에 따른 적절한
조치 가능해 짐
장애 처리 역량이 강화됨
성과 연계를 통한 장애 예
방 활동 강화됨
품질 수준 파악 가능
(월간, 주간 장애 건수 비교)
장애 감지 시간 단축
(10분à1분)
품질 수준 파악 가능
(월간, 주간 등급별 장애 건
수)
장애 처리 시간 단축
(1시간à30분)
장애 수를 줄일 수 있음
(10건/월à0건/월)
체계적인
관리를
통한
TCO 절감
실현
• 현행 시스템의 각종 이슈에 대한 장애
관점의 정리
• 장애 식별 및 장애 범위 지정 필요함
• 적합한 장애 등급 여부 확인 및 처리
방안 정의 필요함
• 장애 관리를 위한 조직 및 R&R이 요구
됨
• 장애 관리 프로세스의 정립이 필요함
• 장애 및 문제에 대한 성과 측정 지표
식별이 요구됨
• 여러 요소 중에서 장애 관리, 문제 관
리의 적절한 분류가 필요함
• 장애에 대하여 문제의 분류 방법이 필
요함
• 장애 등급에 대한 서비스 품질 관점의
정의 필요함
• 문제 관리를 위한 조직 및 R&R이 요구
됨
• 문제 관리 프로세스의 정립이 필요함
• 장애 및 문제에 대한 품질 지표 연계
필요함

장애 관리 방안

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 장애 관리 방안

Similaire à 장애 관리 방안 (20)

장애 관리 방안