MEMS 마이크가 음성 작동 설계에서 음성 감지 및 키워드 인식을 지원하는 방법
DigiKey 북미 편집자 제공
2020-04-23
음성을 사용자 인터페이스로 활용하는 사용자가 증가하면서 설계자는 협소한 공간을 유지하고 빠듯한 예산에 맞추면서도 설계 일정을 지속적으로 단축하고 최소한의 전력 소비와 응답 시간으로 가장 정확하고 안정적인 음성 사용자 인터페이스(VUI)를 구현해야 하는 어려움을 겪고 있습니다. 설계자가 이러한 목표를 달성하도록 여러 벤더에서 VUI를 위해 강력한 깨우기 언어(wake word) 감지와 음성 명령 처리에 도움이 되는 성능을 갖춘 고급 마이크로 일렉트로닉스 시스템(MEMS) 마이크를 도입했습니다.
MEMS 마이크(실리콘 마이크라고도 함)는 스마트폰, 스마트워치, 무선 이어버드, 자동차, 스마트 TV, 원격 제어 등에서 이미 널리 사용되고 있습니다. 이는 대부분 Amazon Alexa, Google Assistant, Apple Siri와 같은 음성 기반 개인 도우미의 성공에 기인합니다. 이러한 도우미는 특정 음성 명령을 수신한 후 깨우기 언어 감지 알고리즘을 사용하여 주위 환경에서 해당 명령을 추출합니다. 설계자는 주변 잡음에도 불구하고 신뢰성, 정확성 및 원거리 음성 캡처 성능을 개선하면서 이 추출 기능을 신속하고 비용 효율적으로 구현해야 합니다.
이 기사에서는 신호 대 잡음비(SNR), 작동 범위, 감도, 시동 시간을 비롯하여 VUI 설계에 영향을 주는 주요 MEMS 마이크 특성을 설명합니다. 그런 다음 TDK InvenSense, CUI Devices, STMicroelectronics 및 Vesper Technologies의 하드웨어 및 소프트웨어 솔루션을 소개하고, 음성 작동 설계에서 솔루션을 적용하는 방법을 보여 줍니다.
MEMS 마이크 작동 방법
MEMS 마이크는 일반적으로 MEMS 멤브레인과 증폭기라는 두 부품을 하나의 패키지로 구성합니다. 여기서 MEMS 멤브레인은 음파를 전기 신호로 변환하고, 증폭기는 사용 가능한 아날로그 출력을 오디오 신호 체인에 제공하는 임피던스 컨버터 역할을 합니다. 디지털 출력이 필요한 경우 세 번째 부품인 아날로그 디지털 컨버터(ADC)를 동일한 다이에 통합할 수도 있습니다.
그림 1: 두 핵심 빌딩 블록인 MEMS 트랜스듀서와 신호 처리 체인(ASIC)을 보여주는 MEMS 마이크의 기본 구조 (이미지 출처: CUI Devices)
MEMS 기술은 아날로그 또는 디지털 출력으로 소형 마이크를 가능하게 하는 것 외에도 위상 정합과 드리프트의 측면에서 우수한 성능을 제공합니다.
주요 MEMS 마이크 특성
음성 제어 장치 설계자는 MEMS 마이크에서 다음과 같은 주요 파라미터를 살펴보아야 합니다.
- 신호 대 잡음비(SNR): 마이크 출력 신호의 잡음 레벨에 대한 레퍼런스 신호 레벨의 비율입니다. SNR 측정에는 마이크 소자와 MEMS 마이크 패키지에 통합된 기타 모든 장치(예: IC)에서 발생하는 잡음이 포함됩니다.
- 감도: 압력 측정에서 음압 레벨(SPL)이 94dB 또는 1Pa인 1kHz 사인파에 대응하는 아날로그 또는 디지털 출력 값입니다.
- 감도 허용 오차 범위: 지정된 개별 마이크에 대한 감도 범위입니다. 마이크를 여러 개 사용할 경우 감도 허용 오차 범위를 엄격하게 적용하여 일관성을 보장합니다.
- 작동 범위: 마이크가 선형적으로 응답하는 가장 시끄러운 SPL과 가장 조용한 SPL 간의 차이를 측정합니다.
- 주파수 응답: 마이크가 작동할 수 있는 오디오 범위입니다.
- 시동 시간: 마이크가 트리거 이벤트에 응답하여 깨어난 후 유효한 신호를 출력하는 속도를 나타냅니다.
원격 제어, TV, 스마트 스피커와 같은 음성 제어 장치는 주로 주변 잡음이 심한 환경에서 작동합니다. 또한 사용자는 원거리 작동 시 1m ~ 10m 이내에 위치할 수 있습니다. 이러한 환경에서는 마이크의 작동 범위, 감도 및 SNR이 매우 중요합니다. 어레이에서 여러 마이크를 사용해야 하는 경우 감도 허용 오차 범위가 중요합니다.
각 마이크의 감도를 특정 레벨로 지정할 수 있지만 구조를 조금만 바꾸어도 변화가 생길 수 있습니다. 하지만 MEMS 마이크는 엄격하게 제어되는 반도체 제조 공정에 따라 개발되므로, 마이크 어레이의 효과적인 신호 처리에 필요한 엄격한 감도 허용 오차 범위를 제공합니다(그림 2).
그림 2: 어레이에 사용되는 마이크는 원하는 신호 처리 성능을 구현하는 데 적합해야 합니다. (이미지 출처: CUI Devices)
VUI 지원 설계에서 마이크 어레이의 채택이 증가하는 가운데 이러한 엄격한 허용 오차 범위는 필수적입니다. 마이크 어레이에서 두 개 이상의 마이크로 신호를 수집하여 각 마이크의 신호를 개별적으로 처리(증폭, 지연, 필터링)한 다음 신호를 결합하여 결과 신호를 생성합니다. 마이크 어레이에서 여러 입력을 채택하여 방향성 응답을 생성(빔형성이라고도 함)함으로써 원하지 않는 잡음을 제거하고 원하는 방향에서 수신되는 소리에 집중할 수 있습니다.
또한 MEMS 마이크의 시동 시간은 전체 키워드 캡처와 키워드 정확성 보장의 측면에서 중요합니다. 전력을 절감하기 위해 VUI 지원 장치는 저전력 상태로 유지되지만, 깨우기 트리거에 응답하는 마이크의 시동 시간이 짧을 경우 VUI 깨우기 시간에 영향을 주어 결과적으로 깨우기 언어 감지 성능과 전력 소비에 영향을 주게 됩니다.
이러한 특성을 고려하여 마이크를 선택하면 후속 음성 처리 알고리즘을 통해 주변 잡음이 심한 환경이나, 사용자가 멀리서 말하거나, 두 경우 모두에서 사용자 음성을 효과적으로 추출할 수 있습니다.
아날로그 및 디지털 MEMS 마이크 인터페이스 비교
MEMS 마이크 작동 방법 섹션에서 언급한 대로 MEMS 마이크의 출력은 아날로그 또는 디지털입니다. 아날로그 MEMS 마이크에서는 낮은 출력 임피던스로 합당한 수준의 출력 신호를 구동하기 위해 내부 증폭기를 사용합니다. 또한 오디오 프로세서에 간단한 인터페이스를 제공합니다. VUI의 경우 설계자는 연결된 프로세서에 기판 실장 ADC가 있는지 확인해야 하며, 특정 요구 사항을 충족하는 ADC를 선택할 수도 있습니다. 후자의 경우 복잡성과 비용이 추가로 발생할 수 있습니다.
디지털 MEMS 마이크의 경우 마이크 출력을 디지털 회로(일반적으로 마이크 또는 디지털 신호 처리기(DSP))에 직접 적용할 수 있습니다. 디지털 출력 신호가 아날로그 출력 신호에 비해 잡음 내성이 우수하므로 전기적 잡음이 심한 환경용 VUI 설계에서는 디지털 마이크를 선호하는 경향이 있습니다.
또한 디지털 MEMS 마이크는 일반적으로 펄스 밀도 변조(PDM)를 채택하여 아날로그 신호 전압을 해당 밀도의 논리 High 신호를 포함하는 단일 비트 디지털 스트림으로 변환합니다. 그러면 무선 주파수 전파 방해(RFI)와 전자파 장해(EMI)에 대한 내성이 향상됩니다. 이는 대형 마이크 어레이와 물리적으로 큰 시스템(예: 음성 지원 차량 인포테인먼트 시스템)에서 특히 중요합니다.
아날로그 마이크의 경우 감도는 1V에 상응하는 데시벨(dB/V)을 단위로 하는 음압 레벨로 측정되고, 디지털 마이크의 경우 일반적으로 전체 범위에 상응하는 데시벨(dB FS)로 측정됩니다.
VUI를 위한 MEMS 마이크 솔루션
TDK InvenSense의 ICS-40740 아날로그 MEMS 마이크는 VUI 응용 분야에 대한 많은 중요 마이크 성능 요구 사항을 해결합니다. 이 마이크는 4.00mm x 3.00mm x 1.20mm의 소형 표면 실장 패키지에서 MEMS 마이크 소자, 임피던스 컨버터, 차동 출력 증폭기로 구성됩니다. 이 마이크는 1.5V 공급 전압으로 작동하며 작동 중에 165µA의 전류만 소비합니다(그림 3).
그림 3: ICS-40740 아날로그 MEMS 마이크는 스마트 스피커와 웨어러블 장치(예: 잡음 억제 헤드셋)의 크기와 전력 예산을 모두 충족합니다. (이미지 출처: TDK InvenSense)
70dBA(A 가중 데시벨)의 SNR을 108.5dB의 폭넓은 작동 범위와 결합하여 원거리 조건에서 주변 잡음이 높아도 음성을 감지할 수 있습니다. 또한 80Hz ~ 20kHz의 폭넓은 작동 주파수 응답 범위, 132.5dB의 선형 응답, ±1dB의 감도 허용 오차 범위를 지원합니다. 후자의 경우 마이크 어레이에 유용합니다.
ICS-40740의 작은 실장 면적과 저전력 사용은 스마트 스피커와 웨어러블 장치(예: 잡음 억제 헤드셋)를 기반으로 제작된 사물 인터넷(IoT) 응용 제품에 적합합니다.
Vesper Technologies의 VM3000은 200µs 미만의 초고속 시동 시간을 지원하여 빠른 절전 해제를 통해 전체 깨우기 언어를 캡처할 수 있는 전방향성 하단 포트 압전 MEMS 마이크입니다(그림 4).
그림 4: VM3000 압전 디지털 MEMS 마이크는 200µs 미만의 초고속 시동 시간을 지원하므로 빠른 절전 해제를 통해 전체 깨우기 언어를 캡처할 수 있습니다. (이미지 출처: Vesper Technologies)
압전 MEMS 마이크에서 음파가 압전 캔틸레버에 닿으면 캔틸레버를 이동하고 전압을 생성합니다. 초저전력 비교기 회로에서 오디오 시스템에 깨우기 신호를 보내 전압을 감지합니다.
압전 MEMS 마이크는 바이어스 전압이 필요하지 않다는 점을 감안하면 VM3000은 깨우기 언어 명령으로 켜질 때까지 전력을 거의 소비하지 않습니다. 또한 0.35µA의 전류만 사용하면서 절전 모드를 유지할 수 있고 100µs 이내에 성능 모드로 전환할 수 있습니다. 또한 초저전력 절전 모드가 빠른 모드 스위칭과 결합되어 오디오 장치를 깨울 때 정보가 손실되지 않도록 합니다.
VM3000 디지털 마이크는 거의 모든 오디오 칩과 결합할 수 있으며 출력 중에 단일 데이터 회선에서 2개의 마이크를 멀티플렉싱할 수 있습니다. 이 마이크는 1kHz 신호에서 통상적으로 63dB의 SNR을 달성하며 122dB SPL의 AOP(음향 과부하점)를 제공합니다.
VM3000은 3.5mm x 2.65mm x 1.3mm 패키지로 제공되며 ADC 통합으로 부품 명세서(BOM)를 절약합니다. 또한 VM3000에서는 단일 계층 압전 수정을 사용하여 감도 드리프트에 대한 내성을 가지며 먼지, 물, 습기 및 기타 환경 미립자로부터 마이크를 보호합니다.
또한 VM3000과 같은 압전 MEMS 마이크는 여러 마이크를 가리기 위한 보호 메시 또는 멤브레인이 필요하지 않으므로 어레이에 대한 오디오 설계를 간소화합니다. 일반적으로 환경 오염에 대한 보호 소자로 음향 포트에 연결되는 메시 또는 멤브레인은 MEMS 마이크의 감도를 떨어뜨릴 수 있습니다.
또한 VM3000은 CODEC 또는 다른 프로세서에 직접 연결할 수 있으므로 상대적으로 구현하기 쉽습니다(그림 5). 마스터 시스템(CODEC 등)은 데이터 회선에서 비트가 전송되는 속도를 정의하는 마스터 클록(CLK)을 제공합니다.
그림 5: VM3000은 외부 프로세서에 직접 연결 가능하며 단일 데이터 회선에 2개의 마이크를 연결할 수 있습니다. (이미지 출처: Vesper Technologies)
흥미롭게도 단일 데이터 회선을 통해 2개의 마스크를 연결할 수 있습니다. 이는 데이터가 L/R Select 핀에 의해 정의되는 클록(CLK)의 상승 에지 또는 하강 에지에서 설정되기 때문입니다. 여기서 하강 에지의 경우 L/R Select = GND(상단) 설정 데이터이고, 상승 에지의 경우 L/R Select = VDD(하단) 설정 데이터입니다. 그러면 CODEC 또는 프로세서에서 CLK 에지에 대한 정렬에 기반하여 비트스트림을 구분할 수 있습니다.
시작하기: MEMS 마이크 평가 키트
MEMS 마이크를 사용하여 주요 파라미터를 평가하고 오디오 시스템의 설계를 간소화하기 위해 제조업체에서는 레퍼런스 기판과 소프트웨어 개발 키트를 제공합니다. 예를 들어 Vesper는 VM3000 디지털 MEMS 마이크, 0.1µF 전원 공급 장치 바이패스 커패시터 및 에지 커넥터로 구성된 S-VM3000-C 평가 기판을 제공합니다.
마찬가지로 ICS-40740 아날로그 MEMS 센서의 경우 TDK InvenSense에서는 설계자가 차동 아날로그 출력 마이크의 성능을 빠르고 효과적으로 분석할 수 있도록 EV_ICS-40740-FX 평가 기판을 제공합니다. MEMS 마이크 이외에 이 개발 키트에서 제공되는 유일한 다른 부품으로는 0.1µF 공급 바이패스 커패시터가 있습니다.
아날로그 MEMS 마이크와 디지털 MEMS 마이크를 모두 제공하는 CUI Devices에서는 설계 시제품 제작 및 테스트를 위한 DEVKIT-MEMS-001 개발 키트를 제공합니다(그림 6). 이 평가 기판은 4개의 독립적인 마이크 평가 회로를 제공합니다.
그림 6: DEVKIT-MEMS-001은 4개의 분리형 마이크 평가 회로(아날로그 출력용 2개, 디지털 출력용 2개)를 제공합니다. (이미지 출처: CUI Devices)
이 기판에는 2개의 아날로그 MEMS 마이크(하단 포트 CMM-2718AB-38308-TR 및 상단 포트 CMM-2718AT-42308-TR)와 2개의 디지털 MEMS 마이크(하단 포트 CMM-4030DB-26354-TR 및 상단 포트 CMM-4030DT-26354-TR)를 제공합니다. 유연한 설계를 위해 아날로그 출력 마이크와 디지털 출력 마이크 모두에 대해 상단 및 하단 음성 포트 옵션이 제공됩니다.
두 아날로그 장치에 비해 CMM-2718AB-38308-TR은 -38dB의 감도와 65dBA의 SNR을 가집니다. CM-2718AT-43208-TR은 감도가 -42dB이고 SNR은 60dBA입니다. 두 장치 모두 주파수 범위는 100Hz ~ 10kHz이고 2V 공급 레일에서 80µA의 전류를 끌어냅니다.
두 디지털 마이크에 관해 CMM-4030DB-26354-TR은 -26dB FS의 감도와 64dBA의 SNR을 가집니다. CMM-4030DT-26354-TR은 감도가 -26dB FS이고 SNR은 65dBA입니다. 두 장치는 모두 1비트 PDM 데이터 형식을 사용하고, 100Hz ~ 10kHz 주파수 범위에서 작동하며, 2V 공급에서 0.54mA의 전류를 이끌어냅니다.
결론
아날로그 및 디지털 MEMS 마이크를 자세히 살펴보면 시스템 차원의 성능 이점과 해당 마이크가 상시 작동 음성 인터페이스의 설계를 어떻게 보완하는지 방법을 알 수 있습니다. 최신 MEMS 마이크에서는 배터리 수명을 연장하고, 원거리 오디오 품질을 개선하고, 환경 오염에 견딜 수 있도록 신기술을 채택합니다. 키워드 정확성 향상은 다른 주요 설계 시 고려할 사항으로, SNR, 감도 허용 오차 범위, 시동 시간과 같은 파라미터와 밀접한 관련이 있습니다. VUI 설계를 효과적으로 수용하기 위해 최신 장치에서는 이러한 파라미터 문제를 모두 해결하고 있습니다.
면책 조항: 이 웹 사이트에서 여러 작성자 및/또는 포럼 참가자가 명시한 의견, 생각 및 견해는 DigiKey의 의견, 생각 및 견해 또는 DigiKey의 공식 정책과 관련이 없습니다.


