两个Beamforming算法

Posted on April 6, 2017 by SHI WEN

一个优化的GSC算法，文中的效果看起来不错：基于鲁棒波束形成的麦克风阵列系统-1ow2sxv

基于奇异值加权的波束形成语音增强方法：基于奇异加权的麦克风阵波束形成语音增强算法-2bnxpkn

将每个麦克风接收到的带噪语音信号分帧作为输入矩阵的列向量. 对输入矩阵作奇异值分解 ,奇异值的不同 ,说明各个麦克风输出信号的能量分布的不同 ,其原因在于各个麦克风受到的噪声干扰不同. 因此可在奇异值分解的基础上 ,估计出麦克风测量数据的可信度 ,对于可信度高的高的麦克风测量数据赋予大的权值 ,对于可信度低的麦克风赋予小的权值 ,从而得到增强的语音信号

将时延补偿后的麦克风接收数据分段作为输入矩阵的列向量 , 则 M 个麦克的全部测量值构成输入矩阵 X

Dereverberation (广告文)

Posted on April 6, 2017 by SHI WEN

去混响（Dereverberation）

一般我们听音乐时，希望有混响的效果，这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响（Reverberation）现象指的是声波在室内传播时，要被墙壁、天花板、地板等障碍物形成反射声，并和直达声形成叠加，这种现象称为混响。

但是，混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加，带来了音素的交叠掩蔽效应（Phoneme Overlap Effect），从而严重影响语音识别效果。

影响语音识别的部分一般是晚期混响部分，所以去混响的主要工作重点是放在如何去除晚期混响上面，多年来，去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种：

(1)基于盲语音增强的方法（Blind signal enhancement approach），即将混响信号作为普通的加性噪声信号，在这个上面应用语音增强算法。

(2)基于波束形成的方法（Beamforming based approach），通过将多麦克风对收集的信号进行加权相加，在目标信号的方向形成一个拾音波束，同时衰减来自其他方向的反射声。

(3)基于逆滤波的方法（An inverse filtering approach），通过麦克风阵列估计房间的房间冲击响应（Room Impulse Response, RIR），设计重构滤波器来补偿来消除混响。

现在科大讯飞实现的基于麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计，从而很好的进行纯净信号的还原，显著的提升了语音听感和识别效果，在测试对比中，多种混响时间下识别效果接近手机近讲水平。

混响语音信号频谱

经过去混响后的语音信号频谱

声源信号提取（分离）

家里人说话太多，DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。而麦克风阵列可以实现声源信号提取，声源信号的提取就是从多个声音信号中提取出目标信号，声源信号分离技术则是将需要将多个混合声音全部提取出来。

通过麦克风阵列波束形成做语音提取和分离

利用麦克风阵列做信号的提取和分离主要有以下几种方式：

(1)基于波束形成的方法，即通过向不同方向的声源分别形成拾音波束，并且抑制其他方向的声音，来进行语音提取或分离；

(2)基于传统的盲源信号分离（Blind Source Separation）的方法进行，主要包括主成分分析（Principal Component Analysis，PCA）和基于独立成分分析（Independent Component Analysis，ICA）的方法。

Design of Microphone Array Data Collection System

Posted on April 6, 2017 by SHI WEN

基于麦克风阵列的信号采集处理系统设计-zggoww

一、硬件系统设计

该硬件系统主要包括16路麦克风构成的阵列、A/D采样模块、DSP数据处理模块、PC机，如图1所示。

1.1 麦克风阵列
该系统中，麦克风阵列选用声望公司的MPA416传声器。MPA416传声器的灵敏度可达50 mV/Pa;拥有低本底噪声;频率响应范围20 Hz～20 kHz;当其用于阵列时，MPA416的相位差能控制在3°～5°，能满足系统对精确度和稳定性的要求。

1.2 A/D采样模块
A/D采样模块由4片PCM4204以及其外围电路组成。PCM4204内置了4个同步采样通道，支持音频串口和DSD数据口。音频串口模式时，输出24位线性PCM码，有主、被动两种工作模式，支持左、右对齐，I2S和TDM数据格式，动态范围为118 dB，最高采样频率216 kHz。系统选用1片PCM4204采用主动工作模式，其余3片PCM4204采用被动工作模式。通过音频串口将外部采集的模拟声音信号转化为24位I2S格式数字信号。由于前端麦克风阵列的输出信号不是差分信号，而PCM4204要求输入信号为差分信号，同时要求输入差分信号幅值在-0.3～-0.3+VccV之间，因此其每路信号的前端都应有一个缓冲电路，用来将所接收的麦克风信号转换为差分信号并对幅值进行调整。缓冲电路主要由OPA1632和OPA22组成，OPA1632和OPA227是高精度、音频差分放大器，缓冲电路如图2所示。

1.3 DSP数据处理模块
设计中数据处理模块选择TI公司浮点DSP芯片TMS320C6713作为模块核心。TMS320C6713为高性能32位浮点DSP，适用于专业音频信号处理，其主频可达300 MHz，处理速度高达2 400 MIPS／1 800 MFLOPS。其内部采用改进的哈佛结构；具有256 kB的片内存储空间；丰富的外设包括两个多通道缓冲串口(McBSP)、两个多通道音频串口(McASP)、SPI和I2C等；增强的直接存储器访问(EDMA)控制器，可控制16个独立通道完成不受CPU干预的数据传输；32 bit的外部存储器接口(EMIF)，能与SRAM、ERPOM、Flash、SBSRAM和SDRAM无缝连接。DSP数据处理模块框图如图3所示。

其中，TMS320C6713通过McASP与前端的A／D采样模块相连，并利用EDMA数据传输速度快、传输量大，且不占用CPU时钟周期的特点，将采集数据转存至TMS320C6713的片内存储空间。TMS320C6713外接CPLD控制EMIF接口，通过对EMIF接口上CE3空间的控制，控制USB芯片CY7C680 01，完成TMS320C6713与PC机平台间的USB数据传输。

1.4 A／D采样模块与DSP数据处理模块接口设计
4片PCM4204芯片与TMS320C6713的McASP1相连接，其连接示意图如图4所示。

图4中，PCM4204 A采用主动工作模式，PCM4204B、PCM4204C和PCM4204D采用被动工作模式。系统采用I2S数据格式，PCM4204A的SDOUT1输出的是1和2通道的数据，SDOUT2输出的是3和4通道的数据；PCM4204B的SDOUT1输出的是5和6通道的数据，SDOUT2输出的是7和8通道的数据；PCM4204C的SDOUT1输出的是9和10通道的数据，SDOUT2输出的是11和12通道的数据；PCM4204D的SDOUT1输出的是13和14通道的数据，SDOUT2输出的是15和16通道的数据。

通过配置芯片引脚S／M、FMT2、FMT1、FMT0、FS2、FS1和：FS0对PCM4204进行设置。具体如下：
对于PCM4204A，S／M=0，使PCM4204A工作在主模式下；对于PCM4204B、PCM4204C、PCM4204D，S／M=1，使PCM4204A工作在从模式下；
FMT2=0，FMT1=0，FMT0=1，选取音频数据格式为24 bit I2S；
对于PCM4204A，FS2=0，FS1=0，FS0=1，选取采样速率为48 kHz；对于PCM4204B、PCM4204C、PCM4204D，FS2=0，FS1=0，FS0=0，选取采样速率为自动检测。

经计算得，A／D采样模块采样速率为22 Mbit·s-1。

1.5 DSP数据处理模块USB接口设计
TMS320C6713通过EMIF的CE3存储空间可以外扩USB2．0接口，因此在对外扩USB进行读／写访问前，需要通过EMIF的CE3控制寄存器CE3C-TL来配置CE3空间存储器接口的类型、存储器宽度及读写时序。
CY7C68001采用并行异步存储器接口通过可编程逻辑芯片CPLD与TMS320C6713相连，其原理框图如图5所示。

CY7C68001除了存储器接口外，还有1个中断信号和4个状态信号。中断信号采用TMS320C6713的外部中断EXT_INT6。
TMS320C6713使用CY7C68001作为从设备。在这种模式下，DSP可以像读／写普通FIFO一样对CY7C68001内部的FIFO进行读／写。PC主机发出命令的同时也由CY7C68001 的引脚提供中断触发信号给DSP的EXT_INT6。其上升沿被检测到后，DSP就进入相应中断服务程序，开始处理USB的传输。DSP通过EA[4：2]连接FIFOA[2：0]对CY7C68001内部FIFO或命令口进行选择。读／写数据通过ED[15：0]与FIFO[15：0]连接进行。FIFO和命令口的选择和地址分配如表1所示。

经实验验证，USB异步传输速率可达3 Mbit·s-1，满足系统需求。

1.6 PC机平台
DSP数据处理模块通过USB接口与PC机相连，通过CY7C68001芯片，将前端采集的数据传输到PC机，方便对数据的进一步处理。

二、程序设计

(下略，全文见开头的附件)

Continue reading →

Array element screening method

Posted on April 6, 2017 by SHI WEN

用于麦克风阵列的阵元筛选方法

叶永，陈建峰** 基金项目：高等学校博士学科点专项科研基金（20096102120013）作者简介：叶永（1987-），男，硕士，主要研究方向：被动声定位通信联系人：陈建峰（1972-），男，教授，博导，主要研究方向：声音信号处理. E-mail: chenjf@nwpu.edu.cn （西北工业大学航海学院）

摘要：在使用 TDOA 算法进行被动声定向时，为精确获取麦克风阵列阵元之间接收声源信号的时间差，进而计算目标的方位角，麦克风阵元之间必须保持较高的相位一致性。而从论文与专利检索来看，目前还没有有效方法筛选出符合要求的麦克风阵元。针对此问题，本文基于麦克风阵列阵元相位一致性的指标，设计出麦克风阵元筛选系统，通过实测数据分析表明：一致性较高的麦克风更适合组建麦克风阵列。

Using TDOA algorithm in passive sound orientation，Higher phase consistency must be maintained in order to get time difference of the sound signal between each microphone array elements and then calculate the azimuth of the target accurately. From the papers and patent search, there is no effective way to filter out the microphone array at present.For this problem, microphone array element screening system is designed. Experimental results show that the high consistency of the microphone is more suitable for the formation of the microphone array.

阵元筛选方法

为了获得相位一致性较好的麦克风用于组建阵列，可采取如下方法对每个麦克风阵元进行比较筛选。通过高保真音箱播放一段包含所有频率段的声音信号，如高斯白噪声，线性调频信号等均可。让待筛选的麦克风在相同条件下同步采集此信号，分别保存采集数据。

所用数据采集卡：NI 公司的 PCI-6110 数据采集卡，有 4 路同步采样模拟输入

Microphone Array Presentations | NIST

Posted on March 20, 2017 by SHI WEN

Source: Microphone Array Presentations | NIST

The NIST Smart Space Project

To reduce the complexity of the design, and make it modular, it was decided to separate the functions on two different types boards. First, the Microboard, which is a sound capture device performing eight channels of digitization and offering a serial data stream, and second a Motherboard which captures and formats data from the eight Microboards and sends the resulting sixty four channels as a UDP packet stream via Ethernet a Data Flow Client for processing. This architecture is shown at a high level below:

The Microboard performs three stages of processing:

Microphone amplification to line level

Analog to digital conversion,

Serial connection to the motherboard

The Motherboard is connected to 8 of these Microboards via cables, and has an FPGA as its main processor. It also has support logic to provide:

4 MBytes of SRAM for buffering and retransmitting of data

Fast Ethernet physical layer device (PHY)

DIP switch to configure the MAC address

A clock synchronization signal connection to other possible microphone arrays

PROM to contain firmware that is loaded at power up

Condition indicator LEDs.

More information about the microphone array is available from the download section.

Installation Steps of version 2

Step 01 (8 times)

Step 02 (8 times)

Step 03

Step 04

Step 05

Step 06

The step 01 and 02 have to be repeated 8 times for each board. BE CAREFUL there is an order to put the cards (cf user manual). the whole system should be tested with the digital oscilloscope provided below.

NIST Speech Signal to Noise Ratio

Source:https://www.nist.gov/information-technology-laboratory/iad/mig/nist-speech-signal-noise-ratio-measurements

The NIST Speech SNR Measurement

In the service of the NIST mission to facilitate industrial advanced technology development, we focus on measurement science and standards development. Since the Smart Spaces of the future will require sensor based interfaces, particularly audio based for speech and speaker recognition, we have developed a signal-to-noise measurement method that will allow more precise measurement of speech signal strength in relatively high background levels. This is designed to facilitate the development of noise reduction algorithms as applied to speech acquired from a variety of sources including microphone arrays.

Broadly, speech is composed of voiced and unvoiced parts, for example the word six being spoken as a phonetically as the four phonenems /s/ /ih/ /k/ /s/, with the two /s/ phones being unvoiced, and having a much lower volume than the /ih/ phone.

Since we are never allowed to observe speech without some degree of background noise, we have developed a method based on sequential Gaussian mixture estimation. Experimental measurements of background noise amplitudes received at our microphone array are well represented by a single Gaussian component, and tested with a Kolmogrov-Smirnov statistic for goodness of fit. A good degree of fit to a single component indicates that no speech is present in a given sample. If a single component hypothesis can be rejected, then we proceed to fit a two component model to the sample time series. A good fit to a two component model might indicate a non-speech speech signal, or speech in a very high level of background noise which masks the unvoiced portion of the speech. If a two component model does not provide a reasonably good fit, we proceed to a three component model, which indicates that there is a fairly good signal-to-noise ratio.

These mixtures are estimated using the classic Expectation Maximization technique, but modified to reflect a constraint that all of the means are equal and zero. We provide a highly optimized C-language implementation of this estimation algorithm as part of our open source toolkit. We take as the SNR estimate as the ratio of the smallest standard deviation to the largest on the decibel scale of 20*log10(s/n).

The pictures show the SNR algorithm estimates of the component standard deviations, from a single microphone and our microphone array. We can see that we go from nine to twenty-one db in the same setting using a delay and sum beam former, and a codec filter that limits the frequency from about 100Hz. to 8,000Hz.

One microphone signal.

One microphone signal distribution.

Microphone array signal.

Microphone array signal distribution

Adaptive Noise Cancellation

Posted on March 20, 2017 by SHI WEN

Noise is everywhere and in most applications that are related to audio and speech, such as human-machine interfaces, hands-free communications, voice over IP (VoIP), hearing aids, teleconferencing/telepresence/telecollaboration systems, and so many others, the signal of interest (usually speech) that is picked up by a microphone is generally contaminated by noise. As a result, the microphone signal has to be cleaned up with digital signal processing tools before it is stored, analyzed, transmitted, or played out. This cleaning process is often called noise reduction and this topic has attracted a considerable amount of research and engineering attention for several decades. One of the objectives of this book is to present in a common framework an overview of the state of the art of noise reduction algorithms in the single-channel (one microphone) case. The focus is on the most useful approaches, i.e., filtering techniques (in different domains) and spectral enhancement methods. The other objective of Noise Reduction in Speech Processing is to derive all these well-known techniques in a rigorous way and prove many fundamental and intuitive results often taken for granted. This book is especially written for graduate students and research engineers who work on noise reduction for speech and audio applications and want to understand the subtle mechanisms behind each approach. Many new and interesting concepts are presented in this text that we hope the readers will find useful and inspiring.

Source: Noise Reduction in Speech Processing – Jacob Benesty, Jingdong Chen, Yiteng Huang, Israel Cohen – Google Books

小工具分享

Posted on March 19, 2017 by SHI WEN

Gliffy

轻量级绘制流程图的软件，可作为Chrome的插件使用。启动极快，可以应付简单的流程图。

下载链接：Link

Daum Equation Editor

在线编辑数学公式，保存为图片格式。

链接：Link

Free Vector Icons

在线检索矢量图图标。网站上有许多打包好的图标集合（Packs）可供免费下载，比如与硬件相关的图标集（Link）。

链接：Link

Audacity

免费开源的音频分析软件。Audacity支持对音频文件进行时域和频域分析。支持包括LADSPA、LV2、Nyquist、VST等多种音效插件。

Tips：

在Edit->Preferences->Effects/Enable Effects中添加软件对不同类型插件的支持；
Audacity音频处理是通过插件完成的，可以在官网（Link）上找到功能丰富、不同类型的插件。

下载链接：Link

Understanding Microphone 麦克风概述

Posted on March 19, 2017 by SHI WEN

转载整理自：http://www.wangdali.net/mic/

麦克风可以将声音的变化通过特定的机制转换为电压或者电流的变化，再交给电路系统进行处理。声音的强度，通过声压表示，对应电压或电流的幅值；声音变化的快慢，则对应电信号的频率。

声压级和距离的关系： spl_distance 其中：L_p1表示距离为r₁处测量的声压级，L_p2表示距离为r2处测量的声压级。

分类

根据不同的声电转换机制，麦克风分为不同的类型，包括动态麦克风、电容式麦克风和压电式麦克风等。由于输出信号比较微弱，一般麦克风都会配合前置放大器（Preamplifier）一起使用，再与后端电路连接。

http://hyperphysics.phy-astr.gsu.edu/hbase/Audio/mic.html#c1

http://www.wangdali.net/mic/

参数

http://www.analog.com/media/cn/technical-documentation/application-notes/AN-1112_cn.PDF

http://www.analog.com/en/analog-dialogue/articles/understanding-microphone-sensitivity.html

ADMP411 MEMS麦克风参数表

灵敏度（Sensitivity）

麦克风的灵敏度是指其输出端对于给定标准声学输入的电气响应。用于麦克风灵敏度测量的标准参考输入信号为 94dB 声压级 (SPL) 或 1 帕（ Pa，衡量压力的单位）的 1 kHz正弦波。对于固定的声学输入，灵敏度值高的麦克风比灵敏度值低的麦克风输出的电信号幅度高。麦克风灵敏度（用dB 表示）通常是负值，因此，灵敏度越高，其绝对值越小。
务必注意麦克风灵敏度参数的单位。如果两个麦克风的灵敏度不是采用同一单位来规定，那么直接比较灵敏度值是不恰当的。模拟麦克风的灵敏度通常用 dBV 来规定，即相对于1.0 Vrms 的比值（dB）。数字麦克风的灵敏度通常用dBFS 来规定，即相对于满量程数字输出（FS)）的比值（dB）。对于数字麦克风，满量程（全“1”）是麦克风输出数字编码可以表征的最大值；关于该参数更详尽的描述，参见”最大声学输入“部分。

灵敏度指输入压力与电气输出（电压）的比值。对于模拟麦克风， 灵敏度通常用 mV/Pa 来衡量，其结果可通过下式转换为 dB 值：

func1_sen_analog

其中 OutputREF 为 1 V/Pa (1000 mV/Pa) 。

对于数字麦克风， 灵敏度表示为 94 dB SPL 输入所产生的输出占满量程输出的百分比。数字麦克风的换算公式为：

func2_sen_dig

其中 OutputREF 为满量程数字输出水平（1.0）。

较高的灵敏度并不总是意味着麦克风的性能更佳。麦克风的灵敏度越高，则它在典型条件（如交谈等）下的输出水平与最大输出水平之间的裕量通常也越小。在近场（近距离谈话）应用中，高灵敏度的麦克风可能更容易引起失真，这种失真常常会降低麦克风的整体动态范围。

举例：

上表列出麦克风的灵敏度-46dBV，根据此参数换算输出电压与声压的关系：10^(-46/20) = 0.00501 V/Pa = 5.01 mV/Pa

输入声压比如120 dBSPL (20Pa) 的声音，麦克风的输出 = 5.01 mV/Pa * 20 Pa = 100.2 mV (RMS)

结合上文中公式，可以做个倒推计算，对于输出强度例如5.01 mV/Pa的麦克风，换算出其灵敏度：20 * log [(0.00501 V/Pa)/(1 V/Pa)] = -46 dBV // @94 dBSPL

附件为换算麦克风灵敏度的小工具：Mic Sensitivity and dB Convertor

信噪比（SNR）

信噪比（SNR）表示参考信号与麦克风输出的噪声水平的比值。这种测量包括麦克风元件和 MEMS 麦克风封装中集成的 ASIC 二者所贡献的噪声。 SNR 为噪声水平与标准 1kHz、 94 dB SPL 参考信号的 dB 差。

要计算 SNR，须在安静、消声环境下测量麦克风的噪声输出。该参数通常表示为 20 kHz 带宽内的 A 加权值 (dBA)，这意味着它包括一个与人耳对不同频率声音的灵敏度相对应的校正系数。当比较不同麦克风的 SNR 时，必须确保它们采用相同的加权方式和带宽；在较窄带宽下测得的 SNR 优于在整个 20 kHz 带宽下测得的 SNR。

动态范围（Dynamic Range）

麦克风的动态范围衡量麦克风能够做出线性响应的最大SPL与最小SPL之差，它不同于SNR（相比之下，音频ADC 或 DAC 的动态范围与 SNR 通常是等同的）。

麦克风的 SNR 衡量噪底（EIN）与 94 dB SPL 的参考水平之差，但在该参考水平以上，麦克风仍然有相当大的有用信号响应范围。麦克风能够对 94 dB SPL 至最高 120 dB SPL（即AOP）的声学输入信号做出线性响应。因此，MEMS 麦克风的动态范围等于其 SNR + 26 dB，其中 26 dB = 120 dB（AOP） − 94 dB。例如，ADMP404 的 SNR 为 62 dB，而动态范围为 88 dB。

下图显示了声音输入（用 dB SPL 衡量）与麦克风电压输出（用dBV 衡量）的关系。动态范围和 SNR 显示于这两个刻度轴之间,以供参考。图11利用 −38 dBV 灵敏度和 65 dB SNR的 ADMP504 来显示这些关系。

fig11_dBspl_vs_dBV

模拟麦克风的dBSPL输入与 dBV输出的关系

图12显示了数字麦克风的 dB SPL 输入与 dBFS 输出之间的类似关系。注意，在此图中，120 dB SPL 的声学过载点（AOP）映射为 0 dBFS 输出信号。只要声学过载点对应 0 dBFS 并且设置为 120 dB SPL，则数字麦克风始终具有 −26dB 的灵敏度。这是由灵敏度的定义（在 94 dB SPL 下测量）所决定的，而不是可以通过改变麦克风 ASIC 的增益进行调整的设计参数。

fig12_dBspl_vs_dBFS

图12. 数字麦克风的dBSPL输入与 dBFS输出的关系

注：以上示例均假定麦克风的声学过载点（AOP）为120dB SPL

频率响应（Frequency Response）

麦克风的频率响应描述其在整个频谱上的输出水平。频率上限和下限用麦克风响应比 1 kHz 的参考输出水平低 3 dB时的频率点来描述。 1kHz的参考水平通常归一化为 0 dB。

频率响应特性还包括通带内偏离平坦响应的限值。这些值表示为 ±x dB，说明 -3 dB 点之间输出信号与标称 0 dB 电平的最大偏差。

MEMS 麦克风数据手册用两幅图来显示此频率响应：一幅图显示频率响应模板，另一个幅图显示典型实测频率响应。频率响应模板图显示整个频率范围内麦克风输出的上限和下限，麦克风输出保证位于此模板范围内。典型频率响应图显示麦克风在整个频段内的实际响应。图13和图14的示例为选自 ADMP404 数据手册的两幅图。

fig13_fr_template 图13. 频率响应模板

fig14_fr_typical

图14. 典型频率响应（实测）

频率响应较宽且平坦的麦克风有助于系统设计实现自然、清晰的声音。

总谐波失真（THD）

总谐波失真（THD）衡量在给定纯单音输入信号下输出信号的失真水平，用百分比表示。此百分比为基频以上所有谐波频率的功率之和与基频信号音功率的比值。
ADI MEMS 麦克风的 THD 利用基波的前五次谐波计算。计算公式如下：

func3_thd

THD 值越高，说明麦克风输出中存在的谐波水平越高。

此测试的输入信号通常为 105 dB SPL，比 94 dB SPL 参考高11 dB。与其它参数相比， THD 在较高的输入 SPL 下测量，这是因为随着声学输入信号水平提高， THD 测量结果通常也会提高。根据经验，输入水平每提高 10 dB， THD 会提高 3 倍。因此，如果在 105 dB SPL 时 THD 小于 3%，则在95dB SPL 时 THD 将小于 1%。
注意不要将此参数与总谐波失真加噪声（THD + N）混淆，后者不仅衡量谐波水平，而且包括输出中的所有其它噪声影响。

麦克风的线性度（Linearity）表征麦克风电信号输出幅度与输入声压的关系。图15和图16分别为ADMP411麦克风数据手册中THD和线性度的曲线图。

fig15_thd_vs_spl

图15. THD + N vs 输入声压

fig16_mic_lin

图16. 麦克风线性度

电源抑制（PSR）和电源抑制比（PSRR）

PSR: Power Supply Rejection
PSRR: Power Supply Rejection Ratio

电源抑制和电源抑制比是两个类似表征麦克风输出对于电源输入噪声抑制能力的参数。它们测量的是电源噪声影响到麦克风的输出的程度。测量方法有所不同。

电源抑制PSR通过将频率为100mV峰峰值，频率为217Hz的方波施加于麦克风的VDD引脚来测量。PSR的结果是在没有声音输入情况下，麦克风经过A-Weight滤波器，20kHz带宽的输出幅度大小。对于模拟麦克风，PSR的单位为dBV（负值）；数字麦克风PSR的单位为dBFS（负值）。如果麦克风具有良好的电源抑制能力，则此PSR近似等于A-Weight滤波器的噪声水平。
电源抑制测量之所以使用217Hz频率，是因为在 GSM电话应用中，217Hz开关频率通常是电源的一个主要噪声源。

电源抑制比PSRR测试使用的不是方波，而是频率为100Hz-10kHz，峰峰值100mV的正弦波施加到麦克风的VDD引脚。PSRR测量麦克风在频域内对电源噪声的抑制能力。测试PSRR的过程中，不需要使用到A-Weight滤波器。在麦克风的器件手册中，一般标定1kHz时器件的PSRR，图17表征ADMP510在100Hz-10kHz内PSRR参数曲线。曲线代表的含义为，在麦克风电源VDD引脚施以100mV峰峰值（-20dBV）的信号，在麦克风输出管脚测量到此频率信号输出值大小。输出信号的绝对值（dBV）要比图表中展现的dB单位的值低20（与输入-20dBV的比值，故减去20！）。

数字麦克风和模拟麦克风的PSRR参数曲线类似，数字麦克风电源抑制比单位为dBFS。不过数字麦克风的电源抑制比参数不是严格的”比值（Ratio）“关系，因为电源噪声输入单位为dBV（-20dBV），而麦克风输出噪声单位为dBFS，并非与电源噪声的比例关系。因此，数字麦克风的电源抑制比曲线中使用PSR，不同于本节第二段中的电源抑制参数（217Hz方波）。

fig17_psrr_vs_freq

图17. 典型的PSRR与频率关系曲线（模拟麦克风）

表2列出了电源抑制PSR和电源抑制比PSRR参数的不同点。

ch2_psr_vs_psrr

表2. PSR和PSRR的对比

声学过载点（AOP）

AOP: Acoustic Overload Point

声学过载点指的是麦克风输出THD等于10%时输入的声压大小（SPL），通常也称为麦克风的削波点。声压高于AOP的输入会造成输出信号严重失真。通过检测输出信号THD的波形决定AOP的大小，如图15所示。

AOP和THD的测试值并不能正确反映麦克风的输出随着失真增加变化的情况。无论是硬件或软件的削波，都会提供关于音质变化的额外信息。为表征麦克风输出随着SPL增加变化的情况，有些麦克风的数据手册会提供麦克风输出随着SPL增加在时域内变化的情况，图18表示输入不同声压的1kHz正弦声波，ADMP411输出电压变化的情况。

fig18_mic_clipping

图18. 麦克风削波特性

Continue reading →

Research Logbook

Shi Wen from EEE, NTU. Singapore

两个Beamforming算法

Dereverberation (广告文)

Design of Microphone Array Data Collection System

一、硬件系统设计

二、程序设计

Array element screening method

Microphone Array Presentations | NIST

Installation Steps of version 2

NIST Speech Signal to Noise Ratio

Adaptive Noise Cancellation

小工具分享

Understanding Microphone 麦克风概述

分类

参数

灵敏度（Sensitivity）

信噪比（SNR）

动态范围（Dynamic Range）

频率响应（Frequency Response）

总谐波失真（THD）

电源抑制（PSR）和电源抑制比（PSRR）

声学过载点（AOP）