Audio 如何在实时声音输入中查找特定声音?

Audio 如何在实时声音输入中查找特定声音?,audio,signal-processing,detection,Audio,Signal Processing,Detection,我已经梳理了StackOverflow和web上关于哨子检测等的许多问题,许多人确实尽可能多地解释了如何检测他们的东西 但我不明白的是,FFT如何帮助你在给定的音频数据样本中检测特定的声音? 这是我从这里和那里找到的一些东西中了解到的 -The sine wave is more or less the building block of ALL signals, musical or not -Three parameters - FREQUENCY, AMPLITUDE, and IN

我已经梳理了StackOverflow和web上关于哨子检测等的许多问题,许多人确实尽可能多地解释了如何检测他们的东西

但我不明白的是,FFT如何帮助你在给定的音频数据样本中检测特定的声音? 这是我从这里和那里找到的一些东西中了解到的

-The sine wave is more or less the building block of ALL signals, musical or not

-Three parameters - FREQUENCY, AMPLITUDE, and INITIAL PHASE, characterize every steady sine wave completely.

-They make each and any kind of wave unique.

-Fourier transform can be used to inspect what kinds of sine waves there are in a signal

SOURCE -- [Audio signal processing basics][3]

Audio data that the computer generates as received from the mic or other input source, for live processing, is an array of amplitudes processed (or stored or taken) at a particular sample rate.
那么,我们如何才能从这一点发展到探测口哨声和拍手声呢? 还有复杂的事情,比如说,对一首歌吹一小段口哨

我的探测理论是,我们用光谱图测试口哨,并记录特定的频率和振幅特征。然后,如果这些特殊的特征在输入中再次重复,我们就检测到一个哨子。 我是对还是错? 这个声音处理的东西有点复杂


忘了提到这一点-我正在使用Python。Java也可以,因为我找到的大多数示例代码都是针对Android的,而Android是用Java编写的。我也能用Java工作。提到任何库或API都会很有帮助。

你说得对,声音处理和检测是复杂的。仍然没有答案。我想知道是否有人试过这个。