기록하는삶
[파이썬/Python] STT, 한국어 음성 인식 라이브러리(SpeechRecognition) 본문
728x90
반응형
SpeechRecognition은 한국어를 포함해 영어, 프랑스어, 중국어 등 다양한 언어의 음성 인식 관련 라이브러리로, 내부적으로 구글, 마이크로소프트, ibm등 빅테크 기업들의 우수한 알고리즘이 사용된 api를 이를 통해 쉽게 사용할 수 있다.
# 필요 library 설치
!pip install SpeechRecognition
!pip install librosa
위와 같이 설치하고 난 뒤, 사용 예시는 아래와 같다.
import speech_recognition as sr
r = sr.Recognizer()
# recognize_google() : Google Web Speech API
# recognize_google_cloud() : Google Cloud Speech API
# recognize_bing() : Microsoft Bing Speech API
# recognize_houndify() : SoundHound Houndify API
# recognize_ibm() : IBM Speech to Text API
# recognize_wit() : Wit.ai API
# recognize_sphinx() : CMU Sphinx (오프라인에서 동작 가능)
import librosa
sample_wav, rate = librosa.core.load('D:\[train] 음성데이터_wav/EX45RB113_EX0355_20210826.wav')
korean_audio = sr.AudioFile('D:\[train] 음성데이터_wav/EX45RB113_EX0355_20210826.wav')
with korean_audio as source:
audio = r.record(source)
r.recognize_google(audio_data=audio, language='ko-KR')
Google Web Speech API의 경우 위처럼 audio 파일과 언어를 변수로 지정하면 음성의 텍스트 변환이 가능하다.
728x90
반응형
'AI > 파이썬(Python)' 카테고리의 다른 글
[파이썬/Python] 입력한 expression(str)의 실행, eval과 exec 함수 (1) | 2021.11.25 |
---|---|
[파이썬/Python] JSON(Javascript Object Notation) 파일 읽기, 한글 깨짐 현상 해결 (0) | 2021.11.23 |
[파이썬/Python] 리스트, 배열(list) 전치(transpose) (0) | 2021.11.11 |
[파이썬/python] 힙(Heap), Heapq 모듈 (0) | 2021.10.07 |
[파이썬/python] 리스트(List), 리스트 복사, 리스트 메서드 (0) | 2021.09.22 |