본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: Evaluation
5건의 항목
2026년 6월 04일
Belief in the Machine - Investigating Epistemological Blind Spots of Language Models
LLM
Epistemology
Belief
Knowledge
KaBLE
Benchmark
TheoryOfMind
Factivity
FirstPerson
Self-Consciousness
Evaluation
Theory
2026년 6월 04일
Benchmark Self-Evolving - A Multi-Agent Framework for Dynamic LLM Evaluation
Paper
Benchmark
Evaluation
LLM
MultiAgent
DynamicEvaluation
DataContamination
2026년 6월 04일
Berkeley Function Calling Leaderboard (BFCL)
Benchmark
FunctionCalling
ToolUse
LLM
AST
Agent
API
Evaluation
UCBerkeley
Gorilla
2026년 6월 04일
LongBench - A Bilingual, Multitask Benchmark for Long Context Understanding
Benchmark
LongContext
Bilingual
DocumentUnderstanding
Evaluation
QA
Summarization
CodeGeneration
LLM
2026년 6월 04일
LLMs_Do_Not_Simulate_Human_Psychology_2025
paper
LLM
HumanSimulation
Psychology
MoralJudgment
SemanticSensitivity
CENTAUR
Evaluation
persona-LDT