Name: Pisama
Author: Pisama

Question 1

What is completion misjudgment in AI agent systems?

Accepted Answer

Detects when an agent incorrectly determines task completion, including premature claims, partial delivery, and ignored subtasks. Most prevalent failure mode (40% in MAST-Data).

Question 2

How does Pisama detect completion misjudgment?

Accepted Answer

Completion Markers: Identifies explicit and implicit completion claims Quantitative Check: Verifies numerical completeness ("all", "every", N items) Hedging Detection: Flags qualifiers like "appears complete" or "seems done" JSON Indicators: Checks structured output for incomplete flags

Question 3

How accurate is the completion misjudgment detector?

Accepted Answer

F1 0.745, precision 0.687, recall 0.814 on the Pisama calibration set.

Completion Misjudgment

Examples

Detection methods

Calibration accuracy

Subtypes