Alchemine Studio

Speech Recognition

STT model: openai/whisper-smallEvaluation model: gpt-4.1Dataset: mozilla-foundation/common_voice_17_0 - WER(Word Error Rate): 34.58% - CER(Character Error Rate): 14.30% LLM이 어려워하는 대표적인 문제는 음성과 관련된 작업입니다. "열 개의 음절 이내로 답변을 생성해 줘"와 같은 것들이죠.발음을 학습할 수 있는 데이터셋도 흔하지 않고, 이를 학습하는 것도 쉽지 않습니다.이와 관련하여 음성을 텍스트로 변환하는 Speech-to-Text(STT) 모델을 평가하던 중에 흥미롭게 분석할 만한 점들이 있어 기록해보고자 합니다. 발음/의미/형식의 유사성을 기반으로 STT 결과를 ..

format_list_bulleted Engineering/LLM Limitations
· 2025. 9. 3.
textsms

EraRAG

기존 graph-based RAG 방법론들은 좋은 성능을 보여주지만 여전히 성장하는 외부 데이터를 제대로 다루지 못하고 있다는 한계점을 지적하며 새로운 RAG 방법론, EraRAG가 등장하게 되었습니다. EraRAG는 기존의 graph-based RAG 방법론들이 아주 빠르게 데이터가 업데이트가 되는 상황에서 여전히 한계점이 있다는 점을 지적하며 외부 데이터가 업데이트될 때 처리되는 토큰의 개수와 소요 시간, 정확도 측면에서 기존의 방법론들보다 우수함을 보여주었습니다. 어떤 방법을 사용하여 더 빠르고 더 강력한 graph-based RAG 시스템을 만들 수 있었을까요? EraRAG: Efficient and Incremental Retrieval Augmented Generation for Grow..

format_list_bulleted Engineering/RAG
· 2025. 8. 22.
textsms

LightRAG

이전 글에서 GraphRAG를 소개하면서 새로운 데이터가 업데이트될 때 많은 시간이 소요된다는 한계점을 알아보았습니다.이번 글에서는 계층구조를 사용하지 않고 포괄적인 정보를 찾고자 했던 LightRAG에 대해 알아봅시다. LIGHTRAG: SIMPLE AND FAST RETRIEVAL-AUGMENTED GENERATIONby Beijing University of Posts and Telecommunications, University of Hong Kong기존 연구들의 한계점기존 RAG 시스템은 텍스트의 지역성(flat data representations)으로 인한 한계를 가지며 문맥을 제대로 이해하지 못함제안방법Low-level 및 high-level 지식을 기반으로 포괄적인 정보 검색을 수행하는 ..

format_list_bulleted Engineering/RAG
· 2025. 8. 21.
textsms

GraphRAG

기술발전의 속도가 상상할 수 없을 만큼 빠른 시대입니다. 매일 Hugging Face에서 새로운 논문들이 소개되고 1년 전 기술은 물론 몇 달 전에 발표된 SoTA가 퇴물이 되어버리는 세상이 된 것 같습니다.RAG 역시 수많은 기술들이 등장하고 후속 연구들의 거름이 되어가길 반복하며 다양한 방면에서 성장하고 있는데요.이번에는 문서에 대한 포괄적인 질문에 답하기 위해 graph를 활용한 graph-based RAG의 대부 Microsoft의 GraphRAG에 대해 알아보도록 하겠습니다! From Local to Global: A GraphRAG Approach to Query-Focused Summarizationby Microsoft Research, Microsoft Strategic Mission..

format_list_bulleted Engineering/RAG
· 2025. 8. 20.
textsms

Adaptive RAG

Summary- 한계점 1. 검색이 필요하지 않은 발화의 경우, 의미 없는 검색결과를 기반으로 답변을 생성- 해결방안: LLM을 활용하여 사용자의 요청을 처리하기 위해, 검색이 필요한지 체크하는 로직 추가- 고도화 1: 검색 필요 여부 판단 정확도를 높이기 위해, 검색 결과를 포함하여 해당 검색 결과의 필요 여부를 판단하도록 로직 변경- 고도화 2: 검색/답변 결과의 유효성을 판단하는 로직을 추가하여 답변의 퀄리티 향상- 고도화 3: 추가 LLM으로 인한 소요시간 증가를 완화시키기 위해, SLM 혹은 finetuned encoder 사용 가장 기본적인 RAG의 구조는 사용자의 질문과 관련된 문서를 프롬프트에 넣고 답변을 생성하는 방식입니다. Image from https://python.langchai..

format_list_bulleted Engineering/RAG
· 2025. 8. 19.
textsms

Retrieval Augmented Generation (RAG)

RAG란 뭘까요? LLM(Large Language Model)의 한계점을 생각해 보면서 RAG가 무엇인지 알아봅시다. LLM은 굉장히 많은 것들을 알고 있지만 지식의 한계는 학습된 데이터의 한계(knowledge cut-off)에 해당합니다.가령, "사내 인사변동에 대해 알려줘!", "실시간 인기 검색어를 알려줘!" 와 같이 공개되지 않은 데이터 혹은 실시간 데이터에 대한 지식을 가지고 있지 않죠. 이처럼 학습되지 않은 데이터에 대하여 질문을 받았을 때, LLM은 사용자가 원하는 답변을 주지 못합니다.심지어 그럴싸한 거짓말을 하는 환각(hallucination) 현상이 발생하기도 하죠. 이러한 외부 데이터에 대한 접근과 환각과 같은 LLM의 태생적인 한계점을 극복하기 위해 나온 기술이 바로 RAG입니다..

format_list_bulleted Engineering/RAG
· 2025. 8. 19.
textsms