기록하는삶

[파이썬/Python] STT, 한국어 음성 인식 라이브러리(SpeechRecognition) 본문

AI/파이썬(Python)

[파이썬/Python] STT, 한국어 음성 인식 라이브러리(SpeechRecognition)

mingchin 2021. 11. 23. 02:06
728x90
반응형

SpeechRecognition은 한국어를 포함해 영어, 프랑스어, 중국어 등 다양한 언어의 음성 인식 관련 라이브러리로, 내부적으로 구글, 마이크로소프트, ibm등 빅테크 기업들의 우수한 알고리즘이 사용된 api를 이를 통해 쉽게 사용할 수 있다.

 

# 필요 library 설치
!pip install SpeechRecognition
!pip install librosa

위와 같이 설치하고 난 뒤, 사용 예시는 아래와 같다.

import speech_recognition as sr
r = sr.Recognizer()

# recognize_google() : Google Web Speech API
# recognize_google_cloud() : Google Cloud Speech API
# recognize_bing() : Microsoft Bing Speech API
# recognize_houndify() : SoundHound Houndify API
# recognize_ibm() : IBM Speech to Text API
# recognize_wit() : Wit.ai API
# recognize_sphinx() : CMU Sphinx (오프라인에서 동작 가능)


import librosa
sample_wav, rate = librosa.core.load('D:\[train] 음성데이터_wav/EX45RB113_EX0355_20210826.wav')

korean_audio = sr.AudioFile('D:\[train] 음성데이터_wav/EX45RB113_EX0355_20210826.wav')

with korean_audio as source:
    audio = r.record(source)
r.recognize_google(audio_data=audio, language='ko-KR')

Google Web Speech API의 경우 위처럼 audio 파일과 언어를 변수로 지정하면 음성의 텍스트 변환이 가능하다. 

728x90
반응형