목록AI/kospeech(한국어 STT) (7)
기록하는삶
지난 글: https://mingchin.tistory.com/230 [파이썬/Python] 한국어 STT, kospeech 활용기(4) _ 코랩&구글 드라이브 활용해 모델 학습하기 지난 글: https://mingchin.tistory.com/222 [파이썬/Python] 한국어 STT, kospeech 활용기(3) _ 학습을 위한 코드 수정, configs 변경 지난 글: https://mingchin.tistory.com/221 [파이썬/Python] 한국어 STT, k.. mingchin.tistory.com kospeech가 제공하는 inference.py는 하나의 음성 파일에 대해 텍스트로 변환한 결과를 출력하도록 지원하는 모듈이다. 지난 글까지 학습시켜 얻은 model.py를 이용해 예측을 ..
음성 인식에서 WER과 CER은 정확도를 판별하는 지표이다. 계산 방법과 코드는 각각 아래와 같다. ① WER(Word Error Rate) D : 음성 인식된 텍스트에 잘못 삭제된 단어 수 S : 음성 인식된 텍스트에 잘못 대체된 단어 수 I : 음성 인식된 텍스트에 잘못 추가된 단어 수 N : 정답 텍스트의 단어 수 단어 에러 비율(WER) = (S+D+I)/N ② CER(Chatacter Error Rate) D : 음성 인식된 텍스트에 잘못 삭제된 음절 수 S : 음성 인식된 텍스트에 잘못 대체된 음절 수 I : 음성 인식된 텍스트에 잘못 추가된 음절 수 N : 정답 텍스트의 음절 수 음절 에러 비율(CER) = (S+D+I)/N import Levenshtein as Lev def wer(ref..
지난 글: https://mingchin.tistory.com/222 [파이썬/Python] 한국어 STT, kospeech 활용기(3) _ 학습을 위한 코드 수정, configs 변경 지난 글: https://mingchin.tistory.com/221 [파이썬/Python] 한국어 STT, kospeech 활용기(2) _ 폴더 위치 변경 및 모듈 설치 지난 글: https://mingchin.tistory.com/201 [파이썬/Python] 한국어 STT, kospeech.. mingchin.tistory.com 지난 글까지의 작업이 끝나면 데이터 상황에 맞게 configs들을 조정하고, augmentation 여부를 정하고, pre-process 과정에서 생성한 글자 사전을 사용하도록 지정하여 학..
지난 글: https://mingchin.tistory.com/221 [파이썬/Python] 한국어 STT, kospeech 활용기(2) _ 폴더 위치 변경 및 모듈 설치 지난 글: https://mingchin.tistory.com/201 [파이썬/Python] 한국어 STT, kospeech 활용기(1) _ 단어 사전 및 transcript.txt 생성하기 오늘부터 몇 개로 나누어 작성할 글은 kospeech가 제공하는 모델 중 deepsp.. mingchin.tistory.com ① 데이터 갯수 설정 (+ augmentation 여부 선택) 필요한 모듈들을 모두 설치하고 나니, 학습 실행 과정에서 다음과 같은 오류를 만날 수 있었다. 마찬가지로, 가장 아래 에러의 발생지를 찾아가 코드를 뜯어봐야한다..
지난 글: https://mingchin.tistory.com/201 [파이썬/Python] 한국어 STT, kospeech 활용기(1) _ 단어 사전 및 transcript.txt 생성하기 오늘부터 몇 개로 나누어 작성할 글은 kospeech가 제공하는 모델 중 deepspeech2 기반 & 3가지 방법 중 character unit의 전처리를 가지고 진행했던 프로젝트를 복기하고 정리하는 글이다. 혹여나 나의 글 mingchin.tistory.com 지난 글에서 kospeech를 활용하기 위한 전처리, 글자 사전 만들기 및 transcript.txt 파일 만들기를 진행했다. 이제 베이스 모델 중 deepspeech2를 이용해 모델을 학습시키는 절차까지 정리해보려고 한다. 0) 학습 준비 원 저자의 깃허..
오늘부터 몇 개로 나누어 작성할 글은 kospeech가 제공하는 모델 중 deepspeech2 기반 & 3가지 방법 중 character unit의 전처리를 가지고 진행했던 프로젝트를 복기하고 정리하는 글이다. 혹여나 나의 글이 참고가 될 분들을 위해, 그리고 나 스스로의 복습을 위해 최대한 꼼꼼히 다루어보려고 한다. kospeech는 아주 훌륭한 오픈 소스임에는 틀림없지만, 생각보다 많은 디버깅이 필요했기 때문에 분명 사용하려는 경우에 공통분모가 있을 것이라 생각한다. 0) 환경, 기술 스택 나는 Window 10에서 anaconda prompt를 활용했고, 파이썬 3.8 기반의 가상환경에서 프로젝트를 진행했다. gpu를 가지고 있지 않아 로컬 환경에서 모델 학습이 가능한 것을 확인한 후 실제 학습의 ..
STT(Speech to Text)는 음성 인식, 말 그대로 음성을 인식하여 그 내용을 텍스트로 전환하는 것을 말한다. 시리, 빅스비 등의 서비스가 가능한 것 역시 이러한 음성 인식 기술의 발전 덕분이다. 최근에는 네이버 크로버가 서비스를 개시하며, 이전에 회의록을 작성하기 위해 녹취를 멈추고 듣기를 반복했던 나의 과거를 아득하게 만들기도 했다. 영어가 아닌 한국어에 대해 STT 기능을 구현할 수 있는 오픈 소스 알고리즘은 아직까지 흔하지 않은데, 그중 kospeech에 대해 프로젝트를 진행하며 조금씩 정리해보려 한다. 1) kospeech? kospeech: https://github.com/sooftware/kospeech GitHub - sooftware/kospeech: Open-Source To..