현재 Survey 논문을 읽고 있는데 해당 내용이 이해가 안가서 설명 형식으로 이어나갈 예정.
일단 논문 내용 정리부터.
TruLens 자체는 TruEra1에서 개발했고, LLM에 대한 개발 평과 및 모니터링하기 위한 오픈 소스 툴킷입니다.
해당 기능의 핵심은 사전 정의된 표준과 출력을 비교하여 품질을 보장하는 TruLens-Eval.
기능
1. LLM을 통합하고 입력 및 출력의 로깅 기록 지원
2. 관련성 모델 OR 보조 모델을 활용하는 피드백 기능을 사용하여 RAG traid에 대한 평가를 수행한다.
이런 평가를 수행할 때, invoked from various providers, 즉 다양한 ..제공업체?로부터 호출되어진다.
예시를 들면 근거성을 판단할 때는 OpenAI API를 사용하여 LLM을 호출한다. 아니면 Huggin FACE에서 NLI 모델을 사용한다.
또한 py를 통해 사용자 정의에 맞는 피드백 함수를 사용가능하다.
-> 이런 모든 기능들은 리더보드에서 시각화를 수행할 수 있다.

그럼 여기서 궁금증은 LLM을 통합하고?? <- 이걸 어떻게 통합하겠다는 거지?
약간 느낌이.. LLM을 평가 대상이자, 평가 도구로 활용할 수 있도록 인터페이스를 제공하겠다느 느낌?
TurLens에서는
1. 평가 대상(Traget LLM)
2. 평가자 (Judge LLM)
3. 인프라 추상화(Provider abstraction)
으로 LLM을 플러그인처럼 끼워 넣을 수 있는 평가 프레임워크처럼 사용한다.
실제 대시보드의 모습.

그러니까 약간 이 툴은 RAG 검증이나, LLM을 검증할 때 따른 API들을 불러서 사용할 수도 있고 아니면 내가 만든 py로 피드백 함수를 줄 수도 있고. 그런 것들을 통해서 대시보드를 활용해 품질 및 점수들을 보면서 LLM을 튜닝할 수 있도록 만드는 툴? 그런 느낌이다.
https://lablab.ai/ai-tutorials/trulens-tutorial-langchain-chatbot
Evaluate and Improve your Chatbots with TruLens Tutorial
A guide on how to evaluate and track LLM Applications
lablab.ai
'AI 보안 > security for ai' 카테고리의 다른 글
| Guidance AI & LMQL (0) | 2026.02.09 |
|---|---|
| Llama Guard, PAIR (0) | 2026.01.22 |
| Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations 후속 연구 (0) | 2026.01.16 |
| Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations (0) | 2026.01.08 |