GridCenter MON

Clunix Wiki
(버전 사이의 차이)
(로그 리스트)
(로그)
104번째 줄: 104번째 줄:
 
*무시할 만한 장애 - 100번의 ping 중 1 ~ 2 개 정도 빠지는 정도의 장애
 
*무시할 만한 장애 - 100번의 ping 중 1 ~ 2 개 정도 빠지는 정도의 장애
 
=로그=
 
=로그=
 +
 
==로그 리스트==
 
==로그 리스트==
 
*Agent접속, 종료
 
*Agent접속, 종료
110번째 줄: 111번째 줄:
 
*모든 장애
 
*모든 장애
 
*관리자 설정 변경
 
*관리자 설정 변경
 +
==로그 출력==
 +
GridCenter MON의 로그는 파일로 저장된다. 저장된 로그는 Web화면에 출력할 수 있다.
 +
==로그 필터==
 +
로그 출력시 필터기능로 보고싶은 로그만 볼 수 있는 기능
 +
*시간별, 기간별 로그 출력
 +
*노드별, 서비스별, 프로세스별 로그 출력
 +
==그래프 출력==
 +
쉽게 분석할 수 있도록 그래프로 자원 사용 현황을 보여준다.
  
 
= 납품할 업체 =
 
= 납품할 업체 =

2009년 2월 10일 (화) 17:26 판

목차

개요

MON이 관리하는 노드들의 자원 상태 모니터링, 노드들에서 동작중인 서비스와 프로세스들을 모니터링하는 솔루션이다. 현재 SK C&C의 항공사진프로젝트를 위해 개발을 준비하고 있다.

요구사항 수집

현재 개발에 앞서 전체요구사항을 수집하는 중이다. 이번 프로젝트에서는 전체요구사항 중 SK C&C에 필요한 기능만 우선 개발한다. SK C&C의 요구사항은 아래와 같다.

  • windows version(연구소 개발)
  • linux version(기술부 GridCenter 활용 - 프로세스 모니터링 기능 추가)
  • 부하 정도를 리턴해 주는 API개발
  • log남기는 기능 추가

Windows version은 연구소에서 개발할 예정이며, Linux version은 기술부가 개발한 GridCenter에 약간의 기능을 추가할 예정이다.

버전

리눅스 버전

현재는 기술부GridCenter로 대체함

윈도우 버전

SK C&C를 위해서 우선 개발되어질 예정이다. 모든 요구사항을 구현하지 않을 예정이며 SK C&C의 요구사항만 반영된 버전이 우선 출시된 예정이다.

기능

시스템 모니터링

  • 모니터링 할 서버 등록/삭제/설정 변경
  • CPU, Memory, Disk 등 하드웨어 자원 모니터링
  • Network 자원 모니터링

서비스 모니터링

등록된 서비스가 노드에서 정상동작 하고 있는지 모니터링 함

  • 서비스 등록/삭제/등록 정보 수정

Clunix 제품 모니터링

타사 HA 솔루션 모니터링

프로세스 모니터링

등록된 프로세스가 노드에서 동작하고 있는지 모니터링 함

  • 프로세스 등록/삭제/등록 정보 수정
  • PID, Owner, Name, CPU Usage, Memory Usage 등

MON API

사용자가 Client 프로그램을 개발할 수 있도록 API를 제공한다. API를 통해 자원상태, 서비스와 프로세스 상태 등을 알 수 있다.(SK C&C 요구사항)

장애판단

로그저장

  • 서버 추가/삭제, 설정변경 등의 로그
  • 장애 발생시 자세한 장애 정보 기록

사용자 인터페이스

현재 예정된 사용자 인터페이스는 Web이다.

  • Web을 통해서 전체 시스템의 상황을 쉽게 판단
  • 편리한 노드, 서비스, 프로세스의 추가/삭제/설정변경
  • 장애 이력등을 한 눈에 확인
  • 자원사용 이력 그래프 출력

GridCenter MON의 시스템 자원 사용

GridCenter MON은 모니터링 기능을 수행하기 때문에 진행되는 작업보다 우선순위가 낮다. 때문에 최소한의 자원만을 사용해서 최대한의 정보를 제공해야 한다.

  • 1개 Core의 3%이내
  • Memory 50MB 이내

매뉴얼

유지보수, 기술지원 등의 업무를 줄일 수 있도록 알찬 내용을 가진 매뉴얼이 제공되어야 한다.
현재 SK C&C에 설치관련 매뉴얼만 제공되어 있다. (2009. 2. 10) - GridCenter MON 설치 매뉴얼 0.1

장애

장애 리스트

관리되는 시스템들에서 발생한 장애를 한 번에 확인 할 수 있어야 한다. 장애가 발생하면 장애 목록과 함께 장애에 대한 정보도 함께 보여주어야 한다.
장애 목록은 다음과 같다.

  • 장애 등급 - 색깔로 장애 정도 표시
  • 장애가 발생한 서버
  • 장애 발생 시간
  • 장애 복구 시간
  • 장애 지속 시간
  • 장애 코드
  • 장애 발생 장치 또는 서비스
  • 장애 상세 내용

시스템 장애

하드웨어 또는 운영체제에서 발생한 장애. 시스템에 접근 자체가 불가능한 경우가 대부분이다.

시스템 장애 증상

관리 프로세스가 감지할 수 있는 장애 증상들이다. MON의 서버가 서버의 시스템 장애로 판단할 수 있는 증상들이다.

  • 네트워크 접속 불가
  • ping 안됨

관리되는 서버들에 설치된 MON slave가 멈추면 모니터링된 값이 전달되지 않는다. 이 경우는 다른 시스템 툴(ping 등)로 노드의 상태를 확인할 수 있다. ping이 된다면 MON Slave가 죽었거나 응답시간이 길어진 경우일 수 있으므로 다른 종류의 장애가 된다.

시스템 장애 원인

  • 물리적인 하드웨어 고장 또는 케이블 단선
  • 하드웨어(부품, 케이블 등) 접속 불량
  • 운영체제 문제로 발생한 장애
  • 네트워크 문제

서비스 장애

모니터링하도록 등록된 서비스의 장애

서비스 장애 증상

  • 등록된 스크립트가 에러값을 출력
  • 서비스의 프로세스가 없음

서비스 장애 원인

  • 시스템 장애 발생
  • 서비스 다운
  • EnCluster HA에 등록된 서비스의 장애 발생

장애등급

모든 장애는 등급을 가진다. 등급에 따라 장애처리 기준이 다르다. 장애등급은 아래와 같이 나누어 진다.

  • 심각한 장애 - 시스템 다운, 중요 서비스 중지 같은 장애발생시 손해가 큰 장애, HA로 처리된 장애도 포함
  • 일반 장애 - 성능에만 영향을 주는 장애
  • 무시할 만한 장애 - 100번의 ping 중 1 ~ 2 개 정도 빠지는 정도의 장애

로그

로그 리스트

  • Agent접속, 종료
  • 모니터링하는 Service, Process 시작
  • Memory, Disk full
  • 모든 장애
  • 관리자 설정 변경

로그 출력

GridCenter MON의 로그는 파일로 저장된다. 저장된 로그는 Web화면에 출력할 수 있다.

로그 필터

로그 출력시 필터기능로 보고싶은 로그만 볼 수 있는 기능

  • 시간별, 기간별 로그 출력
  • 노드별, 서비스별, 프로세스별 로그 출력

그래프 출력

쉽게 분석할 수 있도록 그래프로 자원 사용 현황을 보여준다.

납품할 업체

SK C&C

경쟁사 제품

참고

부서별 위키