네트워크 성능 가속화: 컨버지드 이더넷을 통한 RDMA(RoCE)의 영향

작성자: Tawfeeq Ahmad

계산 집약적 응용 분야의 빠른 발전으로 보다 빠르고 보다 효율적이며 확장 가능한 네트워크 솔루션에 대한 필요성이 높아졌습니다. 이러한 요구 사항을 충족하기 위해 떠오르는 가장 혁신적인 기술 중에 RoCE(컨버지드 이더넷을 통한 RDMA(원격 직접 메모리 액세스))가 있습니다. 이 혁신적인 기술은 CPU의 개입 없이 시스템 간 직접적인 데이터 전송을 가능하게 하여 대기 시간을 크게 줄이고 전반적인 시스템 성능을 향상시킵니다. 저명한 FPGA 설계 회사인 iWave는 AMD의 ERNIC IP(이더넷 RDMA 네트워크 인터페이스 컨트롤러 지적 자산)를 임베디드 컴퓨팅 모듈 포트폴리에 통합하여 강력한 100G 이더넷 솔루션을 구현함으로써 이러한 발전을 선도하고 있습니다. 이러한 통합은 고성능 응용 제품에서 RDMA 기능을 향상시키도록 고안되었습니다.

시스템 간에 직접 데이터를 전송하는 RoCE 이미지그림 1: RoCE는 CPU의 개입 없이 시스템 간 직접적인 데이터 전송을 가능하게 하여 대기 시간을 크게 줄이고 전반적인 시스템 성능을 향상시킵니다(이미지 출처: iWave).

컨버지드 이더넷을 통한 RDMA(RoCE)의 이해

RDMA는 CPU를 효율적으로 건너 뛰고 호스트 또는 서버 간 직접적인 메모리 전송을 실현하는 중요 기술입니다. 이 기능을 사용하여 CPU는 응용 프로그램 실행 및 데이터 처리에 집중할 수 있으므로 대기 시간 감소, CPU 부하 감소, 대역폭 증가 등 네트워크 성능이 비용 효과적인 방식으로 크게 향상됩니다. RoCE는 이더넷 네트워크를 통한 RDMA 작동을 실현하도록 설계된 특정 네트워크 프로토콜입니다. 기존 이더넷 인프라를 활용하는 RoCE는 현재 네트워크 설정을 정비하지 않고도 성능을 개선하려는 조직에게 매력적인 옵션을 제공합니다.

RoCE의 유형

RoCE는 사용되는 네트워크 어뎁터를 기준으로 두 가지 고유 버전 RoCE v1 및 RoCE v2로 분류됩니다.

  1. RoCE v1: 이 프로토콜을 사용하면 동일한 이더넷 브로드캐스트 도메인(VLAN) 내에 위치한 두 개의 호스트 사이에서 통신할 수 있습니다. 이더넷 점보 프레임은 최대 9000바이트 확장을 허용하는 반면, 이 프로토콜은 Ethertype 0x8915를 활용하고 표준 이더넷 프레임을 1500바이트로 제한합니다.
  2. RoCE v2: RoCE v1의 제한 사항을 해결하는 RoCE v2는 IP 및 UDP 헤더를 통합하여 패킷 캡슐화를 향상시킵니다. 이러한 수정을 통해 RoCE v2는 계층 2(데이터 링크 계층)와 계층 3(네트워크 계층) 네트워크에서 원활하게 작동할 수 있으므로 여러 서브넷에 걸쳐 계층 3 라우팅 및 확장성을 지원할 수 있습니다. 라우팅 가능한 RoCE(RRoCE)라고도 불리는 RoCE v2는 IP 멀티캐스트에 대한 지원도 추가되어 응용 가능성을 더욱 넓힐 수 있습니다.

ERNIC IP: RDMA 기능 개선

ERNIC(임베디드 RDMA 지원 NIC) IP는 AMD FPGA, MPSoC, 소프트 MAC IP 구현과 원활하게 통합할 수 있도록 설계된, 맞춤식 지정이 가능한 이더넷 RDMA 네트워크 인터페이스 컨트롤러 IP 코어입니다. 이 솔루션은 높은 처리량, 낮은 대기 시간, 표준 이더넷을 통한 신뢰할 수 있는 데이터 전송 메커니즘(완전한 하드웨어 오프로드)을 제공합니다. iWave는 100G 이더넷 솔루션을 성공적으로 구현함으로써 기술 개선을 위한 노력을 입증했습니다. 이는 AMD의 ERNIC IP를 통합한 iWave의 Zynq UltraScale+ MPSoC 기반 개발 키트를 통해 달성되었습니다.

Zynq UltraScale+ MPSoC 개발 키트는 100G 이더넷 솔루션의 프로토타이핑 및 평가를 위해 제작되었으며 고속 QSFP-28 커넥터를 사용합니다.

데모 설정

일반적인 데모 구성(그림 2)은 다음과 같습니다.

iWave Zynq UltraScale+ MPSoC 개발 키트 다이어그램그림 2: Zynq UltraScale+ MPSoC 개발 키트에 대한 일반적인 구성(이미지 출처: iWave)

시스템 아키텍처 개요

시스템 아키텍처는 처리 시스템(PS)과 프로그래밍 가능 논리(PL) 부품 간에 명확하게 정의된 역할을 통해 데이터 전송을 최적화하도록 설계되었습니다. 구현할 경우, 실시간 응용 제품에 매우 중요한 정밀 시간 프로토콜(PTP) 동기화도 제공됩니다. 초당 100프레임 이상의 8K 비디오를 처리하는 능력과 같은 놀라운 성능 지표를 통해 데이터센터, 멀티미디어, 고성능 컴퓨팅을 비롯한 다양한 분야에 걸쳐 사용될 수 있으며, 최신 컴퓨팅 환경에서 이 기술의 다목적성과 중요성을 강조합니다.

그림 3에 표시된 상위 수준 아키텍처는 Zynq UltraScale+ MPSoC 내 PS 및 PL 부품의 고유한 역할을 강조합니다. PS는 시스템 구성, 제어 및 진단에 필수적인 ARM Cortex-A53 기반의 하드 SoC를 사용합니다. 이 아키텍처의 주요 구성품에는 다음이 포함됩니다.

  • 100G 이더넷 MAC 드라이버: 100Gb/s의 강력한 성능과 저대기 데이터 전송을 보장합니다.
  • ERNIC 컨트롤러 드라이버: DDR에 들어오는 데이터를 관리하고 효율적인 도어벨 교환을 통해 사용자 응용 제품과 ERNIC IP 간 통신을 담당합니다.
  • RDMA 코어 및 사용자 공간 라이브러리: 커널과 사용자 공간 모두에서 RDMA 작동에 대한 호환성 및 최적의 성능을 보장합니다.

iWave Zynq UltraScale+ MPSoC 내의 처리 시스템 및 프로그래밍 가능 논리 부품 다이어그램그림 3: Zynq UltraScale+ MPSoC 내의 처리 시스템 및 프로그래밍 가능 논리 부품의 고유 역할 표시(이미지 출처: iWave)

AMD ERNIC IP는 데이터 전송을 용이하게 하기 위해 다양한 모듈 간 핸드셰이킹을 관리하는 ERNIC 컨트롤러를 통해 RoCE v2 스택을 FPGA에 효과적으로 오프로드합니다. 이는 작업 대기 항목을 생성하고 ERNIC IP에 알림(도어벨)을 전송합니다. 동시에, Zynq UltraScale+ MPSoC의 100G 이더넷 서브시스템은 MAC 및 물리층을 관리하고, 데이터 패턴 생성기는 원시 데이터 및 비디오 데이터 패턴 생성을 담당합니다.

정밀 시간 프로토콜(PTP)

PTP(IEEE 1588 표준) 타임스탬프는 이더넷 네트워크의 여러 시스템에 걸쳐 시간을 동기화하는 데 있어 중요한 역할을 수행합니다. 이러한 동기화는 응용 제품의 성능을 개선하는 데 중요하며, 나노초 레벨에서 동기화된 저대기 데이터 교환을 실현합니다.

구성의 주요 특징

이 구성의 중요 특징에는 다음이 포함됩니다.

  • AMD ERNIC IP를 활용하여 RoCE v2에서 100G 이더넷 구현
  • 신뢰할 수 있는 연결 전송 유형
  • 패킷 처리를 위한 RDMA SEND, RDMA READ, RDMA WRITE 기능
  • RDMA Send with Immediate 및 RDMA Write with Immediate 메시지 유형 지원
  • RDMA의 성능 테스트(XRPING 및 PERFTEST 애플리케이션 사용)
  • RAW 및 비디오 데이터 패턴을 위한 맞춤형 데이터 패턴
  • 데이터와 함께 PTP 타임스탬프 삽입

Zynq UltraScale+ MPSoC 개발 키트에서 서버 PC로의 비디오 데이터 전송에 대한 세부적인 처리량 통계를 통해 100fps 이상의 8K 비디오와 400fps 이상의 4K 비디오를 처리할 수 있는 놀라운 성능을 확인할 수 있습니다.

잠재적 응용 분야

컨버지드 이더넷을 통한 RDMA와 ERNIC IP의 통합은 다양한 산업에 걸쳐 새로운 길을 열고 있으며 다음을 비롯한 다양한 응용 분야에서 연결, 성능, 효율성을 크게 향상시킵니다.

  • 데이터 센터 및 클라우드 컴퓨팅: 효율적인 서버 통신을 용이하게 하고 클라우드 아키텍처에서 데이터 처리를 고속화합니다.
  • 비디오/이미지 캡처 및 전송: 멀티미디어 애플리케이션, 브로드캐스팅, 가상 현실(VR) 환경에 유용합니다.
  • 스토리지 솔루션: 스토리지 장치와 서버 간 더 빠른 데이터 전송을 실현하므로 스토리지 시스템 성능이 향상됩니다.
  • 고성능 컴퓨팅(HPC): 보다 빠른 계산 작업 및 시뮬레이션을 위해 데이터 전송 속도를 향상시키고 HPC 클러스터 내 대기 시간을 줄입니다.
  • IoT 에지 장치: 센서와 장치로부터 실시간 데이터 수집 및 전송을 가능하게 합니다.

보다 빠르고 보다 효율적인 데이터 전송 솔루션에 대한 수요가 계속적으로 증가함에 따라 컨버지드 이더넷을 통한 RDMA 및 ERNIC IP는 미래의 고성능 컴퓨팅에서 중추적인 역할을 수행할 것입니다.

결론

iWave의 광범위한 FPGA 및 SoC FPGA 플랫폼 포트폴리오는 심층적인 기술 전문 지식과 결합하여 고객이 AI, 머신 러닝 및 에지 컴퓨팅의 최신 발전을 활용하는 최첨단 제품을 개발할 수 있도록 지원합니다. iWave와의 파트너십을 통해 회사는 점점 더 복잡해지는 기술 환경에서 제품 개발을 가속화하고 위험을 줄이며 경쟁에서 우위를 차지할 수 있습니다.

더 자세한 내용을 알아보려는 경우 또는 맞춤형 요구 사항에 대해 논의가 필요한 경우 mktg@iwave-global.com을 통해 문의해 주세요.

면책 조항: 이 웹 사이트에서 여러 작성자 및/또는 포럼 참가자가 명시한 의견, 생각 및 견해는 DigiKey의 의견, 생각 및 견해 또는 DigiKey의 공식 정책과 관련이 없습니다.

작성자 정보

Image of Tawfeeq Ahmad

Tawfeeq Ahmad

Tawfeeq Ahmad는 iWave Systems Technologies Pvt. Ltd에서 제품 마케팅 부서를 이끌고 있습니다. 전자 부품에 대한 열정과 마케팅 및 영업에 대한 관심을 품고 있는 Tawfeeq는 iWave의 다양한 내장 전문 지식을 통해 전 세계 조직이 제품 개발에서 개발 주기와 효율성을 향상시킬 수 있도록 지원하는 것을 목표로 합니다. 전자 및 통신 분야에서 학사 학위를 받고 마케팅 분야에서 MBA를 취득한 Tawfeeq는 iWave Systems가 제품 엔지니어링 조직으로서 글로벌 리더 반열에 오르는 것을 목표로 합니다.