Technical NotebookDDangchani's DataLog

research paper

Bias and Uncertainty in LLM-as-a-Judge Estimation

2026. 5. 18.8 min read

Table of Contents

Introduction
LLM Judge as a Measurement Device
Rogan-Gladen Correction
Model Comparison and Shared Calibration
Simulation Result
MMLU-Pro Case Study
Bootstrap Uncertainty
Practical Lesson
Research Direction
References

Z \in \{0,1\}

llm-meets-statistics
daily-paper
llm-evaluation
statistical-inference
uncertainty

Contents

Introduction
LLM Judge as a Measurement Device
Rogan-Gladen Correction
Model Comparison and Shared Calibration
Simulation Result
MMLU-Pro Case Study
Bootstrap Uncertainty
Practical Lesson
Research Direction
References

Dangchan Kim/2026/Safer society with data

GitHub/LinkedIn/Email