Alchemine Studio
close
프로필 배경
프로필 로고

Alchemine Studio

  • 분류 전체보기 (6)
    • Engineering (6)
      • RAG (5)
      • Retrieval (0)
      • Speech-to-Text (0)
      • LLM Limitations (1)
      • Prompt Engineering (0)
      • Media (0)
    • Music (0)
  • 홈
  • 태그
  • 방명록
Speech Recognition

Speech Recognition

STT model: openai/whisper-smallEvaluation model: gpt-4.1Dataset: mozilla-foundation/common_voice_17_0 - WER(Word Error Rate): 34.58% - CER(Character Error Rate): 14.30% LLM이 어려워하는 대표적인 문제는 음성과 관련된 작업입니다. "열 개의 음절 이내로 답변을 생성해 줘"와 같은 것들이죠.발음을 학습할 수 있는 데이터셋도 흔하지 않고, 이를 학습하는 것도 쉽지 않습니다.이와 관련하여 음성을 텍스트로 변환하는 Speech-to-Text(STT) 모델을 평가하던 중에 흥미롭게 분석할 만한 점들이 있어 기록해보고자 합니다. 발음/의미/형식의 유사성을 기반으로 STT 결과를 ..

  • format_list_bulleted Engineering/LLM Limitations
  • · 2025. 9. 3.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (6)
    • Engineering (6)
      • RAG (5)
      • Retrieval (0)
      • Speech-to-Text (0)
      • LLM Limitations (1)
      • Prompt Engineering (0)
      • Media (0)
    • Music (0)
최근 글
인기 글
최근 댓글
태그
  • #graph-based RAG
  • #LightRAG
  • #graphrag
  • #rag
  • #ASR
  • #STT
  • #EraRAG
  • #AdaptiveRAG
  • #whisper-small
  • #automatic speech recognition
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바