Speech Recognition
STT model: openai/whisper-smallEvaluation model: gpt-4.1Dataset: mozilla-foundation/common_voice_17_0 - WER(Word Error Rate): 34.58% - CER(Character Error Rate): 14.30% LLM이 어려워하는 대표적인 문제는 음성과 관련된 작업입니다. "열 개의 음절 이내로 답변을 생성해 줘"와 같은 것들이죠.발음을 학습할 수 있는 데이터셋도 흔하지 않고, 이를 학습하는 것도 쉽지 않습니다.이와 관련하여 음성을 텍스트로 변환하는 Speech-to-Text(STT) 모델을 평가하던 중에 흥미롭게 분석할 만한 점들이 있어 기록해보고자 합니다. 발음/의미/형식의 유사성을 기반으로 STT 결과를 ..