익숙한 도구를 사용하여 FPGA에 에지 AI를 배포하는 방법
DigiKey 북미 편집자 제공
2026-02-17
네트워크 에지에서의 인공 지능(에지 AI)은 추론만으로는 충분하지 않습니다. 실제 배포에는 일반적으로 고속 입출력(I/O), 신호 조정, 실시간 제어 루프가 모두 동시에 실행됩니다. 이러한 다기능 워크로드의 경우, 설계자가 주류 AI 하드웨어로는 충족하기 어려운 수준의 결정론과 긴밀한 조정이 요구됩니다.
문제를 더욱 복잡하게 만드는 두 가지 요소가 있습니다. 첫째, AI 모델이 빠른 속도로 진화하면서 설계자는 빠른 알고리즘 업데이트를 지원하는 플랫폼을 채택해야 합니다. 동시에 많은 에지 시스템이 10년 이상 현장에 머물러 있어 장기적인 적응성을 보장하기 어렵습니다. 둘째, 학습된 모델에서 배포된 시스템까지의 경로가 여전히 파편화되어 있습니다. 데이터 과학자는 PyTorch와 TensorFlow로 작업하는 반면, 임베디드 팀은 완전히 다른 도구 체인을 사용하므로 핸드오프 과정에서 마찰이 발생하여 프로덕션까지 걸리는 시간이 길어집니다.
이러한 과제를 해결하려면 에지 배포에서 일반적인 제약된 전력 포락선 내에서 높은 처리량의 AI 처리와 결정론적 동작, 유연한 I/O, 장기적인 적응성을 모두 갖춘 플랫폼이 필요합니다.
이 기사에서는 설계자가 새로운 에지 AI 아키텍처를 탐색하는 데 어려움을 겪는 응용 분야와 관련 요구 사항을 중점적으로 살펴봅니다. 그런 다음 Altera의 에지 AI 지원 필드 프로그래밍 가능 게이트 어레이(FPGA) 장치와 소프트웨어 도구를 소개하고 광범위한 성능 및 전력 포인트에서 이러한 응용 분야의 요구 사항을 충족하는 데 어떻게 사용할 수 있는지 보여줍니다.
에지 AI의 진화에는 아키텍처 혁신이 필요합니다.
에지 시스템은 점점 더 다양한 AI 기술, 이상 징후 탐지를 위한 고전적인 머신 러닝(ML), 인식을 위한 컨볼루션 신경망(CNN), 대규모 언어 모델(LLM)을 위한 변압기를 사용하고 있습니다. 이러한 컴퓨팅 집약적인 알고리즘은 신호 처리, 네트워킹, 실시간 제어와 같은 까다로운 비AI 기능과 공존하는 경우가 많습니다.
자율 시스템이 대표적인 예입니다. 여러 센서 양식(예: 비디오, 오디오, 레이더, LiDAR, 모션/위치 피드백)에서 데이터를 수집하고, 높은 처리량으로 이러한 스트림을 사전 처리하고, 정교한 AI로 결과를 분석한 다음, 신뢰할 수 있는 결정론으로 고정밀 제어 루프를 관리해야 하는 경우가 종종 있습니다.
산업 자동화, 의료 영상, 방위 및 통신 응용 분야 전반에서 유사한 사례를 많이 찾을 수 있습니다. 공통적인 주제는 컨버전스 워크로드는 기존 아키텍처로는 수용하기 어렵다는 것입니다.
FPGA가 에지 AI에 특별히 적합한 이유
반대로 이러한 요구 사항은 FPGA의 기능과 잘 매핑됩니다. FPGA의 핵심은 런타임 중에 변동하지 않고 설계 시 타이밍 동작을 구워 넣어 진정한 병렬로 연산을 실행하는 구성 가능한 로직을 제공하는 것입니다. 이 아키텍처는 에지 AI에 필수적인 저지연 결정론을 구현합니다. 유연한 로직은 또한 강력한 I/O를 활용합니다. FPGA는 일반적으로 다양한 센서 및 액추에이터와 인터페이스할 수 있는 풍부한 고속 I/O를 제공하여 AI 처리와 긴밀하게 결합할 수 있습니다.
또한 FPGA에는 분산형 내부 메모리가 포함되어 있어 데이터를 작동하는 로직에 가깝게 유지합니다. 이는 프로세서 기반 아키텍처의 일반적인 제약 조건인 공유 메모리 버스에 대한 액세스를 위해 여러 처리 단계가 경쟁해야 할 때 발생하는 병목 현상을 줄여줍니다.
또한 많은 FPGA에는 특수 디지털 신호 처리(DSP) 하드웨어가 통합되어 있습니다. 이렇게 강화된 회로는 범용 패브릭보다 신호 처리 워크로드에 더 높은 성능과 더 나은 전력 효율을 제공합니다. 일부 FPGA는 Linux를 비롯한 표준 소프트웨어 스택을 실행할 수 있는 하드 와이어 프로세서 시스템을 통합하여 네트워킹, 장치 관리 및 사용자 인터페이스와 같은 작업을 위한 기존 소프트웨어 개발을 가능하게 합니다.
즉, 단일 FPGA는 별도의 I/O 칩, AI 가속기, DSP, 제어 패널 프로세서가 필요할 수 있는 기능을 통합할 수 있습니다. 그 결과, 에지 AI 응용 제품이 요구하는 짧은 지연 시간과 결정성을 유지하면서 자재 명세서(BOM), 보드 설치 공간, 전력 소비를 줄일 수 있습니다.
AI 텐서 블록을 추가하여 새로운 가능성을 여는 방법
기존의 FPGA DSP 하드웨어는 이미 많은 에지 워크로드에 적합하지만, AI 추론은 밀도가 높지만 정밀도가 낮은 곱셈-누적 연산이 주를 이루는 경향이 있습니다. 이 문제를 해결하기 위해 Altera의 Agilex 3 및 Agilex 5는 AI 텐서 블록으로 향상된 DSP를 제공합니다. 이는 AI 계산 그래프에 반복적으로 나타나는 행렬-행렬 및 벡터-행렬 곱셈을 위한 특수 하드웨어입니다.
이 접근 방식의 핵심은 스칼라 곱과 가산기/누산기 엔진입니다(그림 1). 텐서 모드에서 유선 점 엔진은 8비트 입력과 사전 로드된 8비트 가중치를 사용하여 10개 원소 점곱을 수행합니다. 동적 범위를 확장하기 위해 데이터 경로에서 블록 부동 소수점 스타일 스케일링을 위한 공유 '공통 지수'를 사용하여 AI 추론에 높은 동적 범위가 필요하지만 정밀도가 낮은 일반적인 시나리오를 해결할 수도 있습니다.
그림 1: AI 텐서 블록은 10개 원소 점곱을 수행할 수 있습니다(이미지 출처: Altera).
점곱 결과는 32비트(고정 소수점 또는 단정밀도 부동 소수점)이며, 추가 가산기/누산기 단계로 캐스케이드하여 인접 블록에 걸쳐 더 큰 점곱을 계산할 수 있습니다. 각 AI 텐서 블록에는 두 개의 점곱 열이 포함되어 있어 다양한 작동 모드가 가능합니다.
일반적인 사용 사례에서 일부 향상된 수학 하드웨어는 레이더 데이터에 대해 고속 푸리에 변환(FFT)을 수행하는 등 기존 DSP 역할에 사용됩니다. 다른 것들은 객체 감지를 수행하기 위한 CNN과 같은 AI 텐서 블록으로 사용됩니다. 이러한 유연성은 다른 컴퓨팅 집약적인 기능과 함께 AI를 처리해야 하는 에지 시스템에서 매우 중요합니다.
다양한 AI 워크로드를 위한 다양한 FPGA 옵션
또한 Agilex 제품군은 성능 확장에 있어 상당한 유연성을 제공합니다. 부품의 크기는 12mm × 12mm에 불과한 효율성 중심의 장치부터 최대 초당 152.6TOPS(피크 테라 연산)를 제공하는 고성능 버전까지 다양하며, I/O 및 메모리 인터페이스 기능도 비슷한 규모로 확장할 수 있습니다.
고성능 부품의 예로는 32mm × 32mm 패키지로 22.17TOPS를 제공하는 Agilex 5 A5ED065BB32AE4SR0이 있습니다. 고효율 부품의 예로 16mm × 16mm 패키지로 2.8TOPS를 제공하는 Agilex 3 A3CW135BM16AE6S를 들 수 있습니다. 각각의 주요 사양은 표 1에 나와 있습니다.
|
표 1: 샘플 Agilex 5 및 Agilex 3 FPGA의 몇 가지 주요 사양이 나와 있습니다. (표 출처: Altera(작성자에 의해 수정됨))
두 제품군 모두 기존 FPGA 또는 Arm 프로세서가 통합된 SoC(시스템온칩)로 제공됩니다. Agilex 3 SoC에는 이중 코어, 800MHz, Arm Cortex-A55가 통합되어 있습니다. Agilex 5 SoC는 이중 1.8기가헤르츠(GHz) Cortex-A76 코어와 이중 1.5GHz Cortex-A55 코어를 갖춘 비대칭 클러스터를 특징으로 합니다. 두 구성 모두 Linux를 지원하므로 네트워킹, 기기 관리 및 사용자 인터페이스를 위한 기존 소프트웨어 개발이 가능합니다.
FPGA를 사용한 에지 AI 배포 간소화
AI 모델은 일반적으로 빠른 반복 주기를 가진 소프트웨어 중심 프레임워크에서 개발되는 반면, FPGA 구현에는 하드웨어 개발 기술과 더 긴 통합 주기가 필요했습니다. Altera의 FPGA AI 제품군(그림 2)은 산업 표준 AI 툴링과 호환되는 흐름을 사용하여 학습된 모델에서 배포 가능한 FPGA 추론 지적 재산(IP)으로의 보다 직접적인 경로를 제공합니다.
그림 2: FPGA AI 제품군 워크플로우는 표준 AI 프레임워크와 FPGA 배포를 연결합니다(이미지 출처: Altera).
워크플로는 다음과 같이 요약할 수 있습니다:
- PyTorch, TensorFlow 또는 ONNX와 같은 표준 프레임워크에서 추론 모델을 개발합니다.
- OpenVINO 툴킷을 사용하여 모델을 그래프 파일(.xml)과 가중치(.bin)로 구성된 중간 표현(IR)으로 변환합니다.
- IR 아티팩트를 FPGA AI 그래프 컴파일러로 전달하면 모델을 사용 가능한 FPGA 리소스에 매핑합니다. 이러한 리소스에는 외부 호스트 프로세서, 내부 프로세서 또는 헤드리스 구성이 포함될 수 있습니다.
- 메모리 이동 및 하드웨어 스케줄링을 위한 추론 엔진 런타임 스택과 FPGA AI 애플리케이션 프로그래밍 인터페이스(API)를 통해 실행을 관리하는 Quartus Prime Pro 에디션을 사용하여 결과 레이어를 컴파일하고 배포합니다.
- 컴파일 프로세스의 일부로 아키텍처 최적화 도구를 사용하여 성능과 리소스 사용량의 균형을 맞출 수 있습니다. 예를 들어, 구현이 추론 처리량 목표를 충족하는 동시에 다른 FPGA 로직을 위한 공간을 확보하는 데 사용할 수 있습니다.
실질적으로 이 접근 방식의 가치는 'FPGA에 배포'를 가속기 설계 작업이 아닌 통합 프로세스로 전환한다는 점입니다. 데이터 과학자는 기존의 모델 개발 워크플로우를 유지할 수 있고, FPGA 및 임베디드 팀은 빌드 및 배포 주기에 자연스럽게 맞는 아티팩트를 받아 모델과 요구 사항이 발전함에 따라 더 빠르게 반복할 수 있습니다. Open Model Zoo for OpenVINO 툴킷을 통해 사전 학습된 모델을 사용하면 개발 속도를 더욱 높일 수 있습니다.
사용하기 쉬운 개발 키트로 빠르게 시작하기
FPGA에서 에지 AI를 탐색하기 위해 설계자는 몇 가지 개발 키트 옵션을 사용할 수 있습니다. 고성능 애플리케이션의 경우 Terasic P0775 Atum A5 개발 키트(그림 3)를 선택하는 것이 좋습니다. Agilex 5 A5ED065BB32AE4SR0을 중심으로 구축된 이 키트는 에지급 시스템에 적합한 다양한 인터페이스를 제공합니다. 주요 기능으로는 8기가바이트(G바이트)의 DDR4, QSFP+ 및 2.5기가비트(GbE) 이더넷 포트, PCIe Gen 3 x4, 듀얼 MIPI 카메라 커넥터, HDMI 출력 등이 있습니다. 이 키트에는 Quartus Prime Pro 에디션의 무료 라이선스가 포함되어 있습니다.
그림 3: P0775 Atum A5 개발 키트는 고성능 AI 및 비전 개발에 대한 액세스를 제공합니다(이미지 출처: Terasic).
효율성에 중점을 둔 애플리케이션의 경우 설계자는 DK-A3W135BM16AEA Agilex 3 FPGA 및 SoC C 계열 개발 키트를 사용할 수 있습니다(그림 4). Agilex 3 A3CW135BM16AE6S를 중심으로 제작된 이 키트는 에코시스템 친화적인 확장성을 갖춘 소형 프로토타이핑을 강조합니다. 이 기판을 저마찰 확장을 위한 Raspberry Pi HAT 커넥터 및 Digilent Pmod 인터페이스와 함께 4G바이트의 LPDDR4, GbE, DisplayPort 및 USB 2.0을 제공합니다.
그림 4: DK-A3W135BM16AEA Agilex 3 FPGA 및 SoC C 계열 개발 키트는 효율성에 중점을 둔 에지 AI를 위한 콤팩트한 플랫폼을 제공합니다(이미지 출처: Altera).
결론
에지에 LLM과 기타 새로운 AI 워크로드가 도입되면서 개발자들은 새로운 접근 방식을 모색하고 있습니다. FPGA는 지연 시간이 짧고 결정론적인 성능을 제공할 뿐만 아니라 다른 많은 시스템 기능도 처리할 수 있는 고유한 솔루션을 제공합니다. 개발자는 AI 지원 Agilex FPGA 및 FPGA AI Suite를 통해 이러한 기능에 빠르고 쉽게 액세스하여 적응성이 뛰어나고 수명이 긴 설계를 위한 새로운 아키텍처 가능성을 열 수 있습니다.
면책 조항: 이 웹 사이트에서 여러 작성자 및/또는 포럼 참가자가 명시한 의견, 생각 및 견해는 DigiKey의 의견, 생각 및 견해 또는 DigiKey의 공식 정책과 관련이 없습니다.


