목록AI/음성인식 (2)
기록하는삶
지난 글: https://mingchin.tistory.com/478 [음성 인식/STT] 음성 신호의 변환(sampling, quantization, coding) 소리와 소리의 표현, waveform 소리의 본질은 공기의 진동이다. 인간의 귀(고막)은 공기 분자의 움직임을 감지해 이를 소리로 인식하며, 해당 진동이 '얼마나 빠르게', '얼마나 크게' 일어나느냐에 mingchin.tistory.com 지난 글에서 음성 신호는 본래 연속적이지만 이를 digital 신호로 변환하는 sapming, quantization, coding 등의 과정을 거쳐 discrete한 값으로 변환한다는 것을 알아보았다. 이번 글에서는 그렇게 변환된 음성으로부터 특징(features)을 추출하는 과정을 정리해본다. Wind..
소리와 소리의 표현, waveform 소리의 본질은 공기의 진동이다. 인간의 귀(고막)은 공기 분자의 움직임을 감지해 이를 소리로 인식하며, 해당 진동이 '얼마나 빠르게', '얼마나 크게' 일어나느냐에 따라 다른 소리로 인식하게 된다. 이러한 공기 분자의 움직임을 표현하는 방법 중 하나가 waveform이며, x축에 time y축의 amplitude를 표현해 시간에 따른 공기 분자의 움직임의 폭을 나타낸다. waveform의 각 점은 일렬의 공기 분자의 움직임을 대표하는 값이라고 볼 수 있다. 이러한 움직임은 주기성을 가지고 나타나며 진동수(frequency), 진폭(amplitude)에 따라 소리의 특성(크기, 높낮이 등)이 달라지게 된다. STT(Speech to Text)은 waveform의 형태로..