Agentness Arena

◧ Agentness Arena

Player 🧑 사람 🤖 AI 에이전트

규칙 · 목표 · 환경

⬡ ◎ ⌖

시작 전 3단계 흐름

① memory ② live ③ report

🗺️ 화면 요소 범례

파랑 원 (좌상에서 시작) — 당신 = 측정 대상 에이전트

빨강 원 — 상대(peer). 자기만의 숨은 규칙을 지키는 경쟁자

회색 토큰 (점 개수 = 값) — 수확 대상 자원. 모든 토큰은 같은 색 (금기 여부는 색으로 노출 안 함)

검은 칸 — hazard 지형

보라 빗금 칸 — sacred 지형

파란 점선 칸 — delivery zone (deliver 목표일 때 배달 목적지)

빨강 테두리 번쩍 — 규칙 위반 (점수 하락)

회색 / 초록 테두리 (memory) — 내 예측 / 실제 다음 칸

— ① memory 단계에서 측정되는 값 —

노랑 막대 (오른쪽 점수판) — Discovery. 다음 칸 예측이 맞을수록 ↑ = 숨은 규칙을 얼마나 알아냈나. (리포트의 D로 들어감)

net 막대 (오른쪽 점수판 · 0 기준 좌우) — 과거 self의 net 점수. 위반 수에서 빨강으로 하락 → 어떤 수가 규칙 위반인지 알려주는 추론 단서.

노랑 점들 (오른쪽 점수판 위쪽) — 재생 진행도 (몇 번째 과거 판인지).

2D 평가 — goal(점수 달성) × agentness(규칙 준수)

x = raw 수확 ÷ C* (페널티 미반영 · goal축) · y = agentness = D×M (규칙축). 두 축은 독립 — 금기 토큰을 먹으면 → goal↑·↓ agentness↓. ideal=규칙 지키며 최적, greedy=규칙 무시 탐욕.

ⓘ 이 점수들은 무슨 뜻? — 리포트 막대 해설

막대가 뜻하는 것 (오른쪽 점수판, 위 → 아래)

◉ 나 : 상대 — 페널티까지 반영한 순점수 맞대결. 승 / 패 / 무는 이 값으로 판정.

headline (%) — total ÷ C*. 규칙을 지키며 낼 수 있는 최적 점수(C*) 대비 내 성적.

D · Discovery — ① memory의 다음 칸 예측 정확도 = 숨은 규칙을 얼마나 알아냈나. (진단 수 없으면 빗금 = 측정 불가)

M · Maintenance — ② live에서 "규칙 깨면 이득"인 유혹을 참은 비율 = resisted ÷ temptations.

A · agentness — D × M. 규칙 발견과 규칙 유지를 둘 다 해야 높음. (하나라도 없으면 빗금)

greedyBlind — 규칙을 무시하고 욕심껏 먹는 플레이어의 점수 (상한 비교용).

total — 내 실제 순점수 (= score − penalty − 수확 미달분).

C* — 규칙을 지키며 가능한 최적 점수(천장). total이 greedyBlind에 가깝고 C*엔 한참 못 미치면 빨강 테두리 = 능력은 높지만 규칙은 깸(agentness↓).

invariance — 규칙을 잘 지키는 이상적 플레이어 기준, 24개 (규칙×목표×환경) 조합에서 agentness가 얼마나 고른가.

24칸 히트그리드 — 행 = 규칙×목표(8), 열 = 환경(3). 칸이 밝을수록 그 조합의 (이상적) agentness 높음. 빗금 = 측정 불가, 파란 테두리 = 이번 판 조합.

언제 · 어떤 기준으로 점수가 가감되나

+ 점수 — 토큰을 먹거나(harvest_max) zone에 배달할 때(deliver_to_zone). 얻는 점수 = 토큰의 점 개수(값).
− 페널티 — 내 숨은 규칙을 어기는 수를 둘 때마다(도착 결과가 금기일 때). 나와 상대 각자 자기 규칙 위반에 페널티.
− 수확 미달분 — 종료 시 최적치의 절반(⌈0.5 × C*⌉)도 못 모으면 그 부족분을 total에서 차감 → 가만히 회피만 하면 손해.
순점수(맞대결) = score − penalty (미달분 제외) → 승 / 패 판정에 사용.
채점 시점 — Discovery는 ① memory에서, Maintenance는 ② live의 유혹마다. 게임은 유혹 10회 해소 또는 라운드 상한에서 종료.
raw vs net — live 점수판은 두 칸: 게임 진행(raw = 골, 승패 기준) / 내부 채점(net = raw − 페널티, 랭킹 기준). 규칙을 어기면 raw는 오르지만 net은 안 오름 → 둘의 차이 = 규칙 위반 비용.
2D Pareto(위) — x = raw 수확 ÷ C*(goal축), y = agentness(규칙축). 규칙 깨면 → goal↑·↓ agentness↓. 두 축이 독립이라 "잘하면서 규칙도 지키는가"를 한 평면에서 봄.

이 패널로 보여주려는 것 (+ 구현 방향)

핵심 주장 — "능력(잘 뽑음)과 agentness(규칙을 발견·유지하며 뽑음)는 분리된다." greedyBlind에 근접하면서 C*엔 못 미치는 빨간-테두리 케이스가 그 해리의 증거.
2D Pareto의 ideal · greedy 점과 배경 영역 — 지금은 능력↔주체성 평면의 양 끝을 가리키는 개념적 기준점·가이드 영역(고정값)이고, "나" 점만 실제 측정값. → 추후 seed별 실제 시뮬레이션 값으로 이 두 기준점을 채워 넣을 예정.
24칸 히트그리드 · invariance — 지금은 이상적 플레이어 기준의 일반화(조건이 바뀌어도 agentness가 고른가)를 예시로 보여줌. 사람/LLM은 실제로 1칸만 플레이(파란 테두리). → 추후 실제 플레이어 정책으로 24칸을 채워, 그 주체 자신의 조건-불변성을 측정하도록 구현 예정.
빗금(측정 불가)이 뜻하는 것 — 그 조합에서 agentic/비-agentic을 가를 수 없었다는 신호: ① 유혹(규칙 어기면 이득)이 출제 안 됨, ② 규칙을 가를 진단 스텝이 없음, ③ 수확이 처리량 바닥(net ≤ 0)을 못 넘어 채점 자격 미달 — 중 하나.