본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: Evaluation
3건의 항목
2026년 4월 13일
Berkeley Function Calling Leaderboard (BFCL)
Benchmark
FunctionCalling
ToolUse
LLM
AST
Agent
API
Evaluation
UCBerkeley
Gorilla
2026년 4월 13일
LongBench - A Bilingual, Multitask Benchmark for Long Context Understanding
Benchmark
LongContext
Bilingual
DocumentUnderstanding
Evaluation
QA
Summarization
CodeGeneration
LLM
2026년 4월 13일
LLMs_Do_Not_Simulate_Human_Psychology_2025
paper
LLM
HumanSimulation
Psychology
MoralJudgment
SemanticSensitivity
CENTAUR
Evaluation
persona-LDT