소개
슬럼(Slurm)은 Linux 기반 클러스터에서 사용할 수 있는 오픈 소스 작업 예약 도구
HPC(High performance computing) 사용자를 위해 Slurm은 다음 작업을 수행
- 컴퓨팅 노드에 사용자를 할당합니다. 이 액세스는 비독점적이거나 공유 리소스를 사용할 수 있으며 리소스가 한 명의 사용자로 제한될 수 있습니다.
- 할당된 노드에서 작업을 시작, 수행 및 모니터링하기 위한 프레임워크를 제공합니다. 일반적으로 작업은 여러 노드에서 실행되는 병렬 작업으로 관리됩니다.
- 보류 중인 작업의 대기열을 관리하고 다음 노드에 할당할 작업을 결정합니다.
Slurm 스케줄러 아키텍처
- 사용자의 HPC 시스템에 맞춰 운영할 수 있도록 모듈식 접근 방식
- 주요 구성 요소는 중앙 집중식 관리자(slurmctld)로 작업 및 리소스를 모니터링
- 이 관리자는 페일오버 복사본을 통해 백업되어 지속적인 작업을 보장합니다.
- 시스템의 각 계산 노드에는 관리자가 제어하는 데몬(slurmd) 존재
- 이 데몬은 리모트 셸과 같은 기능을 하며 다른 노드와 관리자에게 계층적이고 내결함성이 있는 통신을 제공
아키텍쳐
https://slurm.schedmd.com/arch.gif