ILGPU 핵심 개념과 아키텍처

ILGPU는 C# 개발자가 GPU 병렬 연산을 쉽게 구현할 수 있도록 설계된 GPGPU 라이브러리로, 그 강력함은 체계적인 아키텍처와 직관적인 구성 요소에서 비롯됩니다. 이 섹션에서는 ILGPU의 핵심 개념—컨텍스트, 액셀러레이터, 커널, 메모리 관리—를 자세히 살펴보고, CUDA, OpenCL, CPU 백엔드의 차이점을 설명합니다. 또한, NVIDIA H100 GPU와 같은 고성능 하드웨어에서의 동작 원리를 이해하기 위해, CUDA와 CPU 백엔드로 동일한 커널을 실행하는 예제를 제공합니다. 이를 통해 ILGPU의 유연성과 성능을 실감할 수 있습니다.

ILGPU의 주요 구성 요소

ILGPU의 아키텍처는 GPU 연산을 추상화하여 C# 개발자가 복잡한 저수준 작업 없이 병렬 연산을 구현할 수 있도록 설계되었습니다. 주요 구성 요소는 다음과 같습니다:

1. 컨텍스트 (Context)

컨텍스트는 ILGPU의 실행 환경을 초기화하는 핵심 객체로, 사용 가능한 백엔드(CUDA, OpenCL, CPU)를 설정하고 리소스를 관리합니다. 컨텍스트는 ILGPU 애플리케이션의 진입점 역할을 하며, 다음과 같은 역할을 수행합니다:

백엔드 활성화: CUDA(H100 같은 NVIDIA GPU), OpenCL(다양한 GPU/CPU), CPU(디버깅용).
알고리즘 라이브러리 통합: ILGPU.Algorithms 패키지로 고급 연산 지원.
리소스 관리: 메모리 풀, 디바이스 설정.

컨텍스트는 일반적으로 Context.Create 메서드로 생성되며, using 문으로 관리되어 리소스 누수를 방지합니다.

2. 액셀러레이터 (Accelerator)

액셀러레이터는 실제 연산을 수행하는 하드웨어 장치를 나타냅니다. 컨텍스트에서 특정 백엔드(CUDA, OpenCL, CPU)에 연결된 액셀러레이터를 생성하며, 다음과 같은 기능을 제공합니다:

커널 실행: GPU 또는 CPU에서 병렬 연산 수행.
메모리 할당: GPU 메모리(H100의 HBM3) 또는 CPU 메모리 관리.
디바이스별 최적화: H100의 Tensor 코어, FP64 지원 활용.

예를 들어, H100에서 CUDA 액셀러레이터를 생성하면, ILGPU는 CUDA 드라이버를 통해 GPU의 병렬 연산 능력을 활용합니다.

3. 커널 (Kernel)

커널은 GPU에서 병렬 실행되는 연산 단위로, C#으로 작성됩니다. ILGPU는 커널을 JIT 컴파일하여 GPU(PTX for CUDA) 또는 CPU로 변환합니다. 커널의 주요 특징은 다음과 같습니다:

병렬 인덱싱: Index1D, Index2D로 스레드 ID 관리.
간결한 문법: C# 메서드처럼 작성, GPU 병렬성 자동 처리.
최적화 가능: 공유 메모리, Tensor 코어 호출 가능.

커널은 LoadAutoGroupedStreamKernel 같은 메서드로 로드되며, 액셀러레이터에서 실행됩니다.

4. 메모리 관리

ILGPU는 GPU와 CPU 간 데이터 전송과 메모리 할당을 간소화합니다. 주요 메모리 관리 기능은 다음과 같습니다:

ArrayView: GPU 메모리의 래퍼로, 안전한 데이터 액세스 제공.
Allocate1D/2D: 1D/2D 배열 할당, H100의 80GB HBM3 메모리 활용.
CopyFromCPU/CopyToCPU: CPU-GPU 간 데이터 전송.
공유 메모리: GPU 스레드 간 빠른 데이터 공유.

메모리 관리는 성능 병목을 방지하는 데 중요하며, H100의 3TB/s 대역폭을 활용하려면 연속 접근 패턴이 필수입니다.

백엔드 비교: CUDA, OpenCL, CPU

ILGPU는 세 가지 백엔드를 지원하며, 각 백엔드는 고유한 특성과 사용 사례를 가집니다:

CUDA 백엔드:

특징: NVIDIA GPU(H100)에 최적화, Tensor 코어, FP64, HBM3 지원.
장점: 최고 성능, H100의 아키텍처(Hopper) 활용.
단점: NVIDIA GPU 전용, CUDA 런타임 필요.
사용 사례: 대규모 희소 행렬 연산, 머신 러닝 워크로드.

OpenCL 백엔드:

특징: NVIDIA, AMD, Intel GPU/CPU 지원, 크로스 플랫폼 호환성.
장점: 다양한 하드웨어 지원, 리눅스에서 유연.
단점: CUDA 대비 성능 낮음, 최적화 제한.
사용 사례: 비-NVIDIA 환경, 호환성 우선 프로젝트.

CPU 백엔드:

특징: GPU 없이 CPU로 커널 실행, 디버깅용.
장점: 디버깅 용이, GPU 하드웨어 불필요.
단점: 병렬성 제한, 성능 낮음.
사용 사례: 개발 초기 테스트, GPU 없는 환경.

H100을 사용하는 리눅스 환경에서는 CUDA 백엔드가 최적이며, OpenCL은 대체 옵션, CPU 백엔드는 디버깅에 유용합니다.

커널 실행 흐름

ILGPU의 커널 실행은 다음과 같은 흐름을 따릅니다:

컨텍스트 생성: 백엔드 설정.
액셀러레이터 초기화: H100(CUDA) 또는 CPU 선택.
메모리 할당: GPU 메모리에 데이터 업로드.
커널 컴파일: C# 커널을 PTX(CUDA) 또는 IR로 JIT 컴파일.
커널 실행: GPU 스레드에서 병렬 연산 수행.
결과 처리: GPU 메모리에서 CPU로 데이터 다운로드.

이 흐름은 H100의 대규모 병렬성(132 SM, 수십만 스레드)을 활용하며, JIT 컴파일은 C#의 유연성을 유지합니다.

예제: CUDA와 CPU 백엔드로 커널 실행

ILGPU의 유연성을 보여주기 위해, 동일한 커널을 CUDA(H100)와 CPU 백엔드에서 실행하는 예제를 제공합니다. 이 예제는 1,000,000 요소 배열의 각 값을 2배로 만드는 연산을 수행합니다.

예제 코드

using ILGPU;
using ILGPU.Runtime;
using ILGPU.Runtime.Cuda;
using System;

class Program
{
    static void Main()
    {
        // 컨텍스트 생성 (CUDA와 CPU 백엔드 활성화)
        using var context = Context.Create(builder => builder.Cuda().CPU());
        
        // 액셀러레이터 생성
        using var cudaAcc = context.CreateCudaAccelerator(0); // H100
        using var cpuAcc = context.CreateCPUAccelerator(0); // CPU

        // 데이터 준비
        const int size = 1_000_000;
        float[] data = new float[size];
        Random rand = new Random();
        for (int i = 0; i < size; i++)
            data[i] = (float)rand.NextDouble();

        // CUDA 실행
        RunKernel(cudaAcc, data, "CUDA");
        
        // CPU 실행
        RunKernel(cpuAcc, data, "CPU");
    }

    static void RunKernel(Accelerator accelerator, float[] data, string backend)
    {
        // GPU/CPU 메모리 할당
        using var buffer = accelerator.Allocate1D<float>(data.Length);
        buffer.CopyFromCPU(data);

        // 커널 정의 및 로드
        var kernel = accelerator.LoadAutoGroupedStreamKernel<
            Index1D, ArrayView<float>>(
            (index, data) => { data[index] *= 2.0f; });

        // 커널 실행
        kernel(data.Length, buffer.View);

        // 결과 다운로드
        float[] result = new float[data.Length];
        buffer.CopyToCPU(result);

        // 결과 확인 (샘플링)
        Console.WriteLine($"{backend} Backend Result[0]: {result[0]} (Expected: {data[0] * 2.0f})");
        Console.WriteLine($"{backend} Backend Result[{data.Length-1}]: {result[data.Length-1]}");
    }
}

설명

컨텍스트: CUDA와 CPU 백엔드를 동시에 활성화.
액셀러레이터: H100(CUDA)과 CPU를 각각 초기화.
커널: 각 요소를 2배로 만드는 간단한 연산, C#으로 작성.
실행: 동일 데이터를 CUDA와 CPU 백엔드에서 처리, 결과 비교.
환경: 리눅스(Ubuntu 22.04), .NET 8.0, CUDA 12.2.

실행

dotnet new console -n ILGPUKernelExample
cd ILGPUKernelExample
dotnet add package ILGPU
# 위 코드로 Program.cs 작성
dotnet run

출력 예시

CUDA Backend Result[0]: 1.23456 (Expected: 1.23456)
CUDA Backend Result[999999]: 0.98765
CPU Backend Result[0]: 1.23456 (Expected: 1.23456)
CPU Backend Result[999999]: 0.98765

분석

CUDA 백엔드: H100의 병렬 스레드(수십만 스레드)로 빠른 연산, HBM3 메모리 활용.
CPU 백엔드: 순차 처리로 느리지만, 디버깅과 검증에 유용.
유연성: 동일 커널로 백엔드 전환, 크로스 플랫폼 가능.

핵심 개념 요약

ILGPU의 아키텍처는 컨텍스트, 액셀러레이터, 커널, 메모리 관리로 구성되며, CUDA/OpenCL/CPU 백엔드를 통해 유연한 GPGPU 구현을 지원합니다. H100 같은 고성능 GPU에서는 CUDA 백엔드가 Tensor 코어와 HBM3를 활용해 최적의 성능을 제공하며, CPU 백엔드는 디버깅에 유용합니다. 커널 실행 흐름은 C#의 생산성과 GPU의 병렬성을 결합하여, 대규모 연산(예: 희소 행렬 SpMV)을 효율적으로 처리합니다.

다음 단계

이제 ILGPU의 핵심 개념을 이해했으니, 다음 글에서는 ILGPU의 설치와 설정 방법에 대해 알아보겠습니다.

ILGPU 시리즈 요약으로 돌아가기