IP de rede neural destinado a SoCs processando fala complexa
Os recursos são suficientes para o reconhecimento de voz de campo distante, em que o usuário está a metros de distância do microfone. Os assistentes domésticos digitais controlados por voz e o infotainment automotivo são aplicações pretendidas.
Por que processar fala no PCB local?
"Os algoritmos de reconhecimento de fala baseados em rede neural estão executando mais tarefas localmente, em vez de na nuvem, devido a preocupações de latência, privacidade e disponibilidade de rede", disse Cadence.
Chamado HiFi 5, tem o dobro da capacidade de processamento de áudio e quatro vezes o processamento da rede neural (NN) do anterior HiFi 4 DSP.
"Nosso objetivo é disponibilizar localmente um grande sistema de vocabulário capaz de processar linguagem natural", disse o diretor de marketing da Cadence, Gerard Andrews, à revista Electronics Weekly. “Pesquisamos redes neurais de reconhecimento de voz de código aberto e projetamos o HiFi 5 para executar esses tipos de rede.
Elementos de processamento incluem:
- Arquitetura de cinco filas de instrução muito longa (VLIW) capaz de emitir duas cargas de 128 bits por ciclo
- Acumuladores multiplicadores de DSP:
Suporte para 8 MAC / ciclo de 32x32bit ou 16 16x16bit MAC / ciclo
MACs de ponto flutuante de precisão única de oito por ciclo - Acumuladores multiplicadores de redes neurais:
32 16 × 8 MAC / ciclo ou 16 × 4 MAC / ciclo
16 MACs de ponto flutuante de meia precisão opcionais por ciclo
Os MACs do DSP, de acordo com Andrews, incluem, por exemplo, suporte para saturação, enquanto os MACs da rede neural são otimizados para multiplicar um valor de vetor por uma matriz. "Em muitas redes neurais, você acaba gastando uma enorme quantidade de tempo multiplicando um vetor por uma matriz", disse ele, acrescentando que: a escolha de quantos MACs incluir e quais tipos de dados e comprimentos de peso devem ser suportados. baseado no trabalho com clientes HiFi 4.
Matemática de ponto flutuante foi incorporada para dois casos de uso - precisão única para o front-end vocal para formação de feixe e cancelamento de eco, e semi-precisão para algumas redes neurais. "O ponto flutuante oferece um tempo rápido para o mercado", disse Andrews. “Por exemplo, se você desenvolver algo flutuante no MatLab, convertê-lo em ponto fixo consome muito tempo.”
O multiplicador suporta pesos de 8 bits porque “a grande tendência é quantificar até 8 bits para o reconhecimento de voz, o que não precisa compensar muito na precisão. Você vê trabalhos apresentados onde as pessoas estão tentando ir até 4bits ”, disse Andrews. "Prevemos que a maioria dos algoritmos aproveitam nosso multiplicador de 16x8 bits: 16bits para dados do microfone e 8bits para os pesos".

Para outros esquemas de ponderação, a operação de 4 bits, 2 bits e 1 bits está disponível, assim como 8 bits.
A Ambiq Micro, produtora de microcontroladores construídos em processos de silício "sublimiar" para economizar energia, foi o primeiro cliente HiFi 5.
"Para enfrentar o desafio extremamente difícil de trazer algoritmos de reconhecimento de fala e processamento de campo distante baseados em redes neurais computacionalmente intensivos para dispositivos sensíveis à energia, a Ambiq Micro optou por ser a primeira licenciada em silício do HiFi 5 DSP da Cadence", disse Ambiq vp de marketing Aaron Grassian. “Portar o HiFi 5 DSP para a plataforma sub-limiar de otimização de energia da Ambiq Micro permite que designers de produtos, ODMs e OEMs aproveitem ao máximo a tecnologia de líderes de software de áudio como DSP Concepts e Sensory adicionando integração, comando e controle de assistente de voz e interfaces de conversação para produtos portáteis e móveis sem sacrificar a qualidade ou a duração da bateria. ”
Suportando a propriedade intelectual, existe uma biblioteca de funções otimizadas de biblioteca comumente usadas no processamento de redes neurais - especialmente para processamento de fala. Essas funções visam a integração em estruturas populares de aprendizado de máquina.
O HiFi 5 também é compatível com a biblioteca de empresas de codecs de áudio e voz existentes e pacotes de software de aprimoramento de áudio, otimizados para versões anteriores da linha de produtos HiFi da empresa.
