휴대용 스피커 및 스마트 헤드셋에 음성 도우미 통합

작성자: Majeed Ahmad

DigiKey 북미 편집자 제공

2019-09-26

Amazon Alexa, Apple Siri, Microsoft Cortana, Google Assistant 등 가상 도우미를 통해 스마트폰 및 기타 모바일 장치에 연결되는 Bluetooth 헤드셋부터 가정 및 사무실 자동화 환경, 소비자 가전(TV 등)까지 광범위한 스마트 음성 지원 장치가 빠르게 확산되고 있습니다. 음악 청취, 통화, 생체인식 센서 실행 등과 같은 기능을 제어하는 데 음성 지원 서비스 사용이 증가하면서 설계자는 음향적 잡음과 전기적 잡음이 모두 존재하는 환경에서 음성을 식별하여 캡처한 후 무선으로 전송하는 데 어려움을 겪고 있습니다.

개발자가 실험을 거쳐 신속하게 적용하여 시간과 비용을 모두 절감할 수 있도록 패키지 솔루션에는 강력한 잡음 소거 기능과 강력한 무선 인터페이스가 모두 필요합니다.

이 기사에서는 설계자가 차세대 음성 지원 모바일 장치 및 헤드셋에서 빠르게 시작하는 데 도움이 되는 Cirrus Logic, XMOS 및 Qualcomm의 몇 가지 음성 캡처 솔루션을 소개합니다.

음성 캡처 솔루션

Apple, Microsoft 등과 같은 기업이 스마트폰 및 컴퓨터를 사용하여 솔루션을 구현하기 시작하면서 Amazon은 Echo 스마트 스피커에 통합된 Alexa를 출시한 후 더 많은 장치로 사용이 확장되기 시작했습니다.

하지만 Echo에는 7개의 마이크가 내장되어 있습니다. 이는 소형 핸드헬드 장치에 비해 너무 많기 때문에 공간, 비용, 전력을 확보하기 쉽지 않습니다. 그렇긴 하지만, Cirrus Logic과 같은 칩 제조업체들이 더 간단한 설계 솔루션을 출시하여 설계자가 Alexa를 다양한 스마트 장치와 기타 오디오 시스템 폼 팩터에 통합할 수 있도록 돕고 있습니다.

예를 들어, 음성 제어 조명 및 제품, 핸즈프리 휴대용 스피커, 네트워크 스피커 등과 같은 스마트 홈 응용 분야에서 AVS(Alexa Voice Service)를 채택하고 있습니다. 여기서 더 정확하고 안정적인 음성 상호 작용을 위해 잡음과 기타 실제 전파 방해를 억제하여 사용자 환경을 개선하려면 음성 캡처 솔루션이 필요합니다.

잡음이 심한 환경이나 음악 재생 중에 음성 도우미를 구현하려면 높은 정확도로 깨우기 언어(wake-word)를 트리거하고 명령을 해석해야 합니다. 또한 우수한 사용자 경험을 구축하려면 에코를 없애야 합니다. Echo를 사용하면 큰 음악 재생을 중단하고 Alexa가 새로운 요청에 정확히 응답할 수 있습니다.

AVS 설계를 체험하는 좋은 방법으로 Cirrus Logic의 AVS용 598-2471-KIT 음성 캡처 개발 키트를 사용할 수 있습니다. 이 방법은 음향적으로 튜닝된 오디오 처리 하드웨어 및 소프트웨어 부품이 실장된 콤팩트 오디오 장치에 Alexa 기능을 통합하는 것을 목표로 합니다(그림 1). 이 방법은 Raspberry Pi 3 플랫폼을 기반으로 하며 음성 제어, 잡음 억제 및 에코 소거를 위한 Cirrus Logic의 CS47L24-CWZR 스마트 코덱, 디지털 MEMS 마이크, SoundClear^® 알고리즘을 지원하는 레퍼런스 기판을 포함합니다.

그림 1: AVS 지원 장치를 위한 Cirrus Logic의 598-2471-KIT 음성 캡처 개발 키트를 사용하면 음성 캡처 기판(오른쪽 상단)을 Raspberry Pi 3에 케이블로 연결하거나 Raspberry Pi 3 상단에 HAT로 배치할 수 있습니다. (이미지 출처: Cirrus Logic)

음성 캡처 구성 요소

음성 캡처 공정은 이중 코어 300 MMAC DSP를 오디오 허브 코덱과 결합하여 다양하고 전력 효율적인 고정 기능 오디오 처리 블록을 처리하는 CS47L24 음성 프로세서에서 시작됩니다(그림 2). 프로그래밍 가능한 DSP 코어는 다중 마이크 잡음 억제, 음향 에코 소거(AEC), 음성 인식과 같은 광범위한 고급 오디오 처리 기능을 지원합니다.

Cirrus Logic의 CS47L24 음성 프로세서 구성도 그림 2: 키트의 음성 캡처는 이중 코어 300 MMAC DSP를 오디오 허브 코덱과 결합하여 다양하고 전력 효율적인 고정 기능 오디오 처리 블록을 처리하는 CS47L24 음성 프로세서에서 시작됩니다. (이미지 출처: Cirrus Logic)

CS47L24 스마트 코덱은 온칩 디지털 아날로그 컨버터(DAC)를 2W 모노 스피커 드라이버와 함께 사용하여 Hi-Fi 오디오 재생을 지원합니다. 또한 광대역 및 협대역 음성 통화 핸드오버에 도움이 되는 자동 샘플링 속도 감지를 지원합니다. CS47L24 프로세서에는 3개의 디지털 오디오 인터페이스가 제공되며, 각 인터페이스는 광범위한 표준 오디오 샘플링 속도와 직렬 인터페이스 형식을 지원합니다.

CS47L24는 1.8V 및 1.2V 외부 공급 장치로 구동되며, 전력, 클로킹 및 출력 구동기 아키텍처는 음성, 음악, 대기 모드에서 저전력에 맞게 설계되었습니다. 또한 CS47L24는 1.8V 이상으로 마이크를 작동하기 위한 별도의 MICVDD 입력을 제공합니다.

음성 제어, 잡음 억제 및 에코 소거를 위한 디지털 MEMS 마이크 IC 및 연결된 SoundClear 알고리즘은 입력에서 Hi-Fi 오디오를 제공하고, 마이크 전력 소비를 줄여줍니다. IC는 두 가지 운영 모드를 지원합니다. 저전력 모드는 상시 음성 활동 감지에 적합하고, 고성능 모드는 Hi-Fi 녹음에 맞게 최적화되었습니다. 모드는 적용된 클록 주파수에 따라 결정됩니다.

마이크는 아날로그 디지털 컨버터(ADC)를 통합하여 펄스 밀도 변조(PDM) 인코딩을 통해 단일 비트 데이터 스트림을 출력하고 여러 마이크를 스테레오 어레이 구성으로 효과적으로 연결합니다. 설계자는 빔형성 기술로 공격적인 잡음 감소 및 에코 소거 기능을 제공하여 가장 선명한 전이중 통신 및 오디오 캡처를 실현하도록 최적화할 수 있는 다중 마이크 IC를 살펴보아야 합니다.

또한 MEMS 마이크는 잡음 플로어와 AOP(Acoustic Overload Point) 사이의 넓은 작동 범위(100dB이 시작점으로 적합)를 손쉽게 처리해야 합니다. 그러면 조용한 환경과 시끄러운 환경 모두에서 Hi-Fi 오디오 녹화가 가능합니다. 예를 들어, 클래식 음악, 음성 등과 같은 하위 수준 오디오 콘텐츠를 배경 히스(hiss) 없이 녹음할 수 있습니다. 동시에 마이크에서 록 콘서트, 바람 소리 등과 같은 매우 시끄러운 소리로 인한 왜곡을 방지할 수 있습니다.

하드웨어를 최대한 활용하기 위해 SoundClear 알고리즘에서는 잡음 억제, 자동 음성 인식(ASR) Enhance™, 에코 소거 등과 같은 처리 기능을 통해 소음을 제거합니다.

원거리 음성 캡처

다른 음성 캡처 솔루션으로는 Amazon AVS를 위한 XMOS의 XK-VF3500-L33-AVS VocalFusion™ 스테레오 개발 키트가 있습니다. 이 솔루션은 스마트 TV, 사운드바, 셋톱 박스, 디지털 미디어 어댑터 등과 같은 원거리 사용 사례에 초점을 맞추고 있습니다. 이러한 응용 분야에서는 "across the room" 음성 인터페이스 솔루션에 대한 스테레오 AEC를 지원해야 하며 사용자가 음성 명령을 통해 TV를 켜고 테이블 램프를 조정할 수 있습니다.

원거리 음성 캡처 응용 분야에서는 AEC 레퍼런스 신호를 정확히 보정하고 대기 시간을 신중하게 조정해야 합니다. 이렇게 하면 콘텐츠의 볼륨과 주변 환경에 상관없이 설계자가 설계한 원거리 음성 부속품으로 사용자의 음성 명령을 듣고 정확히 캡처할 수 있습니다.

VocalFusion 키트는 Amazon에서 원거리 성능을 입증하는 선형 마이크 어레이 솔루션입니다. 설계자는 이 키트를 통해 스마트 TV, 조명, 가전 등과 같은 가정용 장치에 Alexa를 통합할 수 있습니다. 이 키트는 2채널 전이중 AEC를 제공하는 XVF3500-FB167-C 음성 프로세서를 기반으로 구축되어 복잡한 음향 환경에서 음성 캡처를 지원합니다(그림 3). DSP 지원 AEC 기능은 탈반향, 자동 이득 제어, 잡음 억제를 간소화하여 잡음이 심한 환경에서도 정확한 음성 상호 작용을 보장합니다.

XMOS의 XVF3500 음성 프로세서 구성도 그림 3: XVF3500 음성 프로세서는 적응형 빔형성을 채택하여 배경 잡음과 실내 에코를 억제하면서 원하는 음성 소스를 찾고 음성 명령을 스테레오 오디오와 효과적으로 분리합니다. (이미지 출처: XMOS)

4마이크 VocalFusion 키트는 Infineon의 XENSIV™ IM69D130V01XTSA1 MEMS 마이크로 원시 오디오 데이터를 제공하여 XVF3500 음성 프로세서에서 오디오 신호 처리 알고리즘을 실행할 수 있도록 지원합니다. IM69D130 마이크는 최대 128dB의 음압 수준(SPL)에서 1% 미만의 총 고조파 왜곡(THD) 그리고 원거리 및 속삭임 음성 픽업 성능을 지원하도록 설계되었습니다.

음성 캡처 설계에서 제공되는 “바지인(barge in)” 기능을 사용하면 음악을 재생 중인 장치를 중단하거나 일시 중지하여 스테레오 홈 엔터테인먼트 및 벽면 실장 AV 장비에서 Alexa 기반 설계를 위한 새로운 기회를 열 수 있습니다(그림 4).

그림 4: 음성 캡처 프로세서와 마이크를 함께 작동하여 원거리 Alexa 응용 분야를 위한 음성 인터페이스를 구축할 수 있습니다. (이미지 출처: Infineon Technologies)

실제 구현의 예로는 XVF3500 음성 프로세서를 기반으로 하는 Skyworth의 인공 지능(AI) 지원 스마트 TV가 있습니다. 상시 작동 스마트 TV는 최대 5m 이내에서 180° 전차원 음원 식별을 통해 깨어나서 음성 명령에 응답합니다.

스마트 헤드셋 설계

설계 스펙트럼의 반대쪽에는 이어버드와 헤드셋이 있습니다. 스마트폰 및 태블릿과 연결된 이러한 장치는 일정 관리, 스마트 홈 관리, 음악 스트리밍, 날씨 업데이트 등을 위해 점차적으로 음성 지원을 통합하고 있습니다. 스마트 스피커와 마찬가지로 Bluetooth 헤드셋은 잡음이 심한 환경에서 고품질 오디오를 전송하기 위해 지속적으로 개선되어야 합니다.

Qualcomm의 AVS 및 Google Assistant 플랫폼을 위한 스마트 헤드셋 참조 설계 및 개발 키트는 개발자가 음성 작동 헤드셋 및 히어러블 설계를 시작할 수 있도록 지원하는 주요 구성 요소입니다. 개발자는 레퍼런스 기판을 사용하여 음성 도우미를 평가하고, 설계 엔지니어는 설계 키트를 사용하여 정식 개발 환경으로 전환할 수 있습니다.

Google Assistant를 위한 Qualcomm의 DK-QCC5124-GAHS-A-0 스마트 헤드셋 개발 키트를 살펴보겠습니다. 이 키트는 Google Assistant 앱이 설치된 Android 휴대폰에서 Google의 음성 도우미를 작동하기 위한 푸시 버튼을 지원합니다. Qualcomm cVc™(Clear Voice Capture) 잡음 감소 기술을 사용하는 Qualcomm의 Bluetooth 오디오 칩셋을 기반으로 구축된 이 키트는 잡음 억제 및 기타 오디오 향상을 통해 주변 소리를 줄여서 호출자의 음성을 강화합니다.

cVc 6.0 기술은 일련의 잡음 감소 알고리즘을 통해 패킷 손실 및 비트 오류를 숨겨서 선명한 통화를 지원합니다. 다른 주요 기술로는 강력한 오디오 스트리밍을 위해 대기 시간을 단축하는 Qualcomm aptX™ HD가 있습니다. 이 기술은 신호 대 잡음비를 개선하고 배경 소음을 줄이기 위해 설계된 고음질 Bluetooth 오디오 코덱입니다.

또한 Amazon AVS를 위한 Qualcomm의 DK-QCC5124-AVSHS-A-0 스마트 헤드셋 참조 설계에서는 cVc 6.0 잡음 감소 기술과 aptX HD 무선 오디오 기술을 모두 지원하고, Alexa 앱이 설치된 휴대폰에서 Alexa 작동을 위한 푸시 버튼을 지원합니다.

또한 Qualcomm의 QCC5124 Bluetooth 트랜시버 칩셋을 기반으로 구축된 이 플랫폼은 AMA(Alexa Mobile Accessory) 키트를 지원하므로 Android 및 iOS 장치에서 Bluetooth를 Alexa Mobile 앱에 쉽게 연결할 수 있습니다(그림 5). AMA 키트를 사용하면 휴대폰을 통해 헤드셋에서 Alexa로 음성 명령을 손쉽게 전달할 수 있으며, Amazon AVS에서 자연어 처리를 위한 많은 작업을 수행합니다.

Amazon AVS를 위한 Qualcomm의 DK-QCC5124-AVSHS-A-0 개발 기판 구성도 그림 5: Amazon AVS를 위한 DK-QCC5124-AVSHS-A-0 개발 기판에는 스마트 헤드셋 설계의 주요 구성 요소가 있습니다. (이미지 출처: Qualcomm)

이는 두 가지를 의미합니다. 첫째, 개발자가 Alexa 통합을 위해 대용량 코딩을 감독할 필요가 없고, 둘째, 개발자가 Bluetooth 연결 이외의 통신 하드웨어를 추가할 필요가 없습니다.

상위 수준에서 Amazon AVS에서 AMA 키트를 통해 음성 부속품과 Alexa Mobile 앱 간에 제어 메커니즘을 작동하여 음성 부속품(예: 스마트 헤드셋)과 Alexa 서비스 간에 손쉽게 통신할 수 있습니다.

개발자는 개방형 기판 개발 키트를 평가 후 사용할 수 있습니다. 하지만 개방형 기판 개발 키트를 프로그래밍하려면 트랜잭션 브리지(DK-TRBI200-CE684-1)가 필요합니다. 이 트랜잭션 브리지는 키트에 포함되어 있지 않지만 별도로 구매할 수 있습니다.

결론

음성 도우미를 다음 설계에 통합하려는 설계자를 위해 이미 관련 제조업체에서 깨우기 언어 인식, 잡음 소거, 저전력 상시 작동 기능의 측면에서 많은 작업을 수행하고 있습니다. 설계자는 참조 설계와 개발 키트를 활용하여 스마트 헤드셋, 스마트 스피커, 완벽한 홈 음성 제어를 비롯한 광범위한 지능형 음성 제어 서비스를 위한 음성 캡처 솔루션을 개발할 수 있습니다.