OpenAI · 경제 연구(Economic Research) · 2026.06.25

AI 에이전트는 어떻게 일하는 방식을 바꾸고 있는가

Codex가 최첨단 현장에서 지닌 경제적 잠재력을 측정한, OpenAI의 새로운 경제 연구 논문.

글 · OpenAI 분류 · 회사 소식 원문 보기 →

에이전트형 AI1는 지식 노동2의 기본 단위를 ‘한 번의 대화’에서 ‘맡겨 두는 긴 호흡의 과제’로 바꿔 놓고 있습니다. 챗봇과의 대화는 대체로 짧고 그 자리에서 끝나는 경우가 많습니다. 반면 에이전트는 여러 도구를 직접 불러 쓰고3, 주어진 환경과 주고받으며, 해답에 이를 때까지 스스로 작업을 거듭하면서 수 분에서 수 시간 동안 독립적으로 일할 수 있습니다. 그 결과 에이전트는 빠르게 가장 강력한 업무용 AI 도구로 자리 잡고 있습니다.

지난 한 해 동안 우리 OpenAI는 이 변화를 직접 겪었습니다. Codex4가 일반에 공개된 뒤 처음 몇 달 동안은 회사 안에서도 여전히 ChatGPT가 기본 업무 도구였습니다. 2025년 8월까지만 해도 OpenAI 직원이 쓰는 토큰5 가운데 Codex에 들이는 비중은 평균 10%에도 미치지 못했습니다. 그런데 지금은 법무팀이나 채용팀처럼 기술 직군이 아닌 부서까지 포함해 모든 부서가 Codex를 주력 업무 도구로 쓰고 있습니다. 우리는 에이전트 도구의 성능과 접근성이 한층 좋아진 만큼, 이런 흐름이 곧 다가올 ‘일의 미래’를 보여 준다고 봅니다.

Codex의 확산은 그 성능 향상과 발맞춰 함께 이루어졌습니다. Codex가 더 강력한 모델과 새로운 기능을 갖추면서, 처리할 수 있는 생산적 업무의 폭도 점점 넓어졌기 때문입니다. 우리는 개인 사용자, 조직(기업) 사용자, 그리고 OpenAI 직원 전반에 걸쳐 지난 한 해 동안 나타난 네 가지 흐름을 정리했습니다.

에이전트는 더 어려운 일을 더 오래 합니다

Codex에 들어오는 전체 요청 가운데 약 4분의 1은, 사람이 직접 하면 1시간 넘게 걸릴 작업입니다.7 Codex가 긴 맥락을 다루며 독립적으로 일하는 능력이 좋아지면서, 사용자들은 짧은 대화에서 벗어나 호흡이 길고 더 어려운 작업으로 옮겨 갔습니다.

아래 그래프는 ‘사람 기준 소요 시간’의 네 가지 기준선 — 30분 초과, 1시간 초과, 4시간 초과, 8시간 초과 — 을 넘긴 개인 사용자의 비율을 추정한 것입니다.8 2025년 12월부터 2026년 5월 사이, 사람이 하면 30분을 넘길 작업을 요청한 사용자 비율은 80.6%까지 올랐습니다. 1시간을 넘길 작업을 요청한 비율은 70.2%로 늘었고, 8시간을 넘길 작업을 요청한 비율은 시작점이 낮았던 만큼 가장 빠르게 증가했습니다.

사람 기준 소요 시간 기준선을 넘긴 개인 사용자 비율 · 2026년 5월
30분 초과80.6%
1시간 초과70.2%
8시간 초과25.6%

에이전트 활용이 늘어나는 모습은 하루 단위 Codex 가동 시간에서도 드러납니다. OpenAI의 일간 활성 사용자 가운데 가장 많이 쓰는 사람들은 하루에도 여러 시간 분량의 에이전트 작업을 Codex에 맡깁니다. 2026년 6월 기준 상위 1% 사용자9는 하루에 60시간이 넘는 Codex 에이전트 작업을 일상적으로 만들어 냈는데, 이는 여러 개의 에이전트를 동시에 병렬로 돌린 결과입니다.10 Codex가 더 강력해지고 병렬 처리가 가능해지면서, 사용자들은 한 번에 답 하나만 받던 방식에서 벗어나 하루 동안 여러 에이전트 작업을 한꺼번에 지휘·조율하는 방향으로 나아갔습니다.

도입은 엔지니어에서 OpenAI 전체로 계속 번지고 있습니다

OpenAI의 엔지니어들이 가장 먼저, 그리고 서서히 Codex를 쓰기 시작했습니다. 회사의 평균적인 엔지니어는 2025년 12월 무렵 OpenAI 제품 사용량의 대부분을 Codex로 옮겼습니다. 오늘날 평균적인 엔지니어는 출력 토큰의 99%를 ChatGPT가 아닌 Codex로 만들어 냅니다. 법무·재무·채용 부서는 이보다 늦은 2026년 4월 무렵에야 Codex를 주로 쓰는 단계로 넘어갔지만, 그 전환 속도는 훨씬 빨랐습니다. 이제 OpenAI의 평균적인 변호사나 채용 담당자는 출력 토큰의 85% 이상을 Codex로 만들어 냅니다.

지난 6개월 동안 회사 안에서 Codex 사용은 더 깊고 강해졌습니다. 활성 내부 사용자들 사이에서 출력 토큰 총량의 변화는 모든 부서에서 가파르게 늘었습니다. 가장 큰 폭으로 뛴 곳은 리서치 부서로, 2026년 6월 기준 사용량 중앙값이 2025년 11월보다 56배 높았습니다. 고객 지원 부서는 32배, 엔지니어링은 27배 늘었고, 법무는 비교적 완만하게 늘었지만 그래도 11월 대비 13배에 이르렀습니다.

이 두 가지 흐름은 Codex가 OpenAI의 생산적 업무 방식을 어떻게 바꿔 놓았는지를 함께 보여 줍니다. 회사 전반에서 사람들은 주된 AI 활용 방식을 챗봇에서 에이전트로 바꾸고 있으며, 기하급수적으로 늘어나는 양의 에이전트 노동을 쏟아붓고 있습니다.

가장 빠르게 늘어나는 사용자층은 비개발자입니다

OpenAI·조직·개인 등 모든 사용자층에서 Codex 사용은 개발자로부터 시작됐습니다. 코딩 도구로 출발한 만큼 개발자가 자연스러운 첫 사용층이었기 때문입니다. 그러나 Codex가 더 일반적인 지식 노동으로 영역을 넓히면서, 비개발자의 도입 속도가 오히려 더 빨라졌습니다. 아래 사용자 증가 그래프에서 보듯, 개인·조직·OpenAI 모든 집단에서 주간 비개발자 사용자가 개발자보다 더 빠르게 늘었습니다. 2026년 6월 초 기준 비개발자 개인 사용자는 2025년 8월 이후 137배로 늘었습니다. 비개발자 조직 사용자는 189배 늘었고, 비개발자 OpenAI 사용자는 12배 늘었는데, 이는 이 집단이 이미 평균을 크게 웃도는 지점에서 출발했기 때문으로 보입니다.

이런 변화가 모든 비개발자가 엔지니어와 똑같은 방식으로 Codex를 쓴다는 뜻은 아닙니다. 오히려 더 많은 비개발자가 저마다의 방식으로, 어떤 형태로든 에이전트 작업에 Codex를 쓰고 있다는 뜻입니다.

Codex는 ‘할 수 있는 일’의 범위를 넓히고 있습니다

Codex는 그동안 기술 전문성이 병목이었던 업무 흐름을, 비기술 부서가 한층 빠르게 처리할 수 있게 해 줍니다. 아래 히트맵11은 OpenAI 내부에서 추정한 직군과, Codex 결과물에 나타난 작업 유형을 견주어 보여 줍니다. 데이터 과학·리서치에서는 엔지니어링·코딩이 가장 큰 비중을 차지하는 반면, 재무·사업 운영, 마케팅, 운영을 비롯한 다른 부서에서는 지식 노동이 가장 큰 비중을 차지합니다.

다만 에이전트 도구는 한 사람이 해낼 수 있는 일의 범위를 넓혀 줍니다. 예컨대 사업 부문 종사자가 Codex로 한 작업 가운데 4분의 1 이상이 엔지니어링이나 코딩이었습니다. 에이전트는 서로 다른 업무 영역을 넘나드는 데 드는 비용을 낮춰 주고, 예전 같으면 더 전문적인 기술 지원이 필요했던 인접 업무까지 직접 해낼 수 있게 돕습니다.

직군 vs. Codex로 수행한 작업

통합 추정 부서 작업 범주
엔지니어링·코딩 데이터 분석 재무 분석 지식 노동 기타
엔지니어링 72% 4% 1% 18% 5%
데이터 과학·리서치 51% 10% 0% 30% 9%
재무·사업 운영 31% 9% 16% 34% 10%
제품·마케팅·운영 25% 3% 7% 51% 15%
기타 50% 7% 2% 38% 4%

부서 내 출력 토큰 비중 (색이 짙을수록 비중이 큼)

이것이 에이전트의 경제적 잠재력에 갖는 의미

엔지니어가 아닌 직원들이 에이전트 도구를 더 많이 쓰게 되면서, 이들이 해낼 수 있는 일의 범위가 넓어지고 있습니다. 이는 업무 흐름을 어떻게 다시 설계할지 고민하는 기업, 어떤 역량이 더 가치 있어질지 가늠하는 직원, 그리고 AI가 노동 시장을 어떻게 바꾸는지 이해하려는 정책 입안자와 연구자 모두에게 중요한 문제입니다.

이번 논문은 최첨단(프런티어) 사용자12들이 성능 좋은 에이전트 도구를 어떻게 받아들이는지를 보여 줍니다. 우리의 분석 결과는, 사람들이 성능 좋은 에이전트 도구에 마찰 없이 폭넓게 접근할 수 있을 때 어떤 일이 벌어지는지를 잘 드러냅니다. 즉 도구가 좋아질수록 사람들은 그것을 더 길고, 더 복잡하며, 더 여러 부서에 걸친 일에 사용합니다. 시간이 흐를수록 이런 모습이 곧 ‘일의 미래’가 될 가능성이 큽니다.

주(註) · 용어 풀이

  1. 1
    용어 풀이에이전트형 AI (Agentic AI) — 사람의 지시를 받아 스스로 여러 단계를 거쳐 목표를 이루는 AI. 한 번 묻고 답하는 챗봇과 달리, 도구를 사용하고 환경과 주고받으며 수 분에서 수 시간 동안 독립적으로 일을 수행합니다.
  2. 2
    용어 풀이지식 노동 (Knowledge work) — 지식과 정보를 다루어 가치를 만들어 내는 일(분석, 기획, 문서 작성, 코딩 등). 여기서는 ‘AI가 대신 처리할 수 있는 일의 기본 단위’라는 뜻으로 쓰였습니다.
  3. 3
    용어 풀이도구 호출 (Tool call) — AI 에이전트가 외부 프로그램이나 기능(웹 검색, 코드 실행, 파일 처리 등)을 직접 불러내 사용하는 것을 말합니다.
  4. 4
    용어 풀이Codex — OpenAI가 만든 AI 코딩 에이전트. 사용자의 지시를 받아 코드 작성·수정, 작업 자동화 등을 비교적 긴 시간 동안 스스로 수행합니다. 본래 개발자용 도구로 출발했습니다.
  5. 5
    용어 풀이토큰 (Token) · 출력 토큰 — 토큰은 AI 모델이 글을 처리할 때 다루는 기본 단위(대략 단어 또는 단어 조각)입니다. 이 글에서는 ‘사용량을 재는 척도’로 쓰였습니다. ‘출력 토큰’은 모델이 만들어 낸(출력한) 토큰을 가리킵니다.
  6. 6
    용어 풀이긴 호흡의 작업 (Long-horizon) — 한두 번의 주고받기로 끝나지 않고, 여러 단계를 거치며 오랜 시간에 걸쳐 진행되는 작업. 본문 뒤에 나오는 ‘긴 맥락(long-context)’은 그만큼 많은 정보를 한꺼번에 다뤄야 한다는 뜻입니다.
  7. 7
    원문 각주작업의 호흡(사람이 하면 걸릴 시간)은 Codex의 작업 기록을 살펴본 ‘LLM 평가자(LLM-as-judge)’ 방식으로 추정했습니다. 이는 사람 대신 다른 AI 언어모델에게 결과물을 평가·판정하게 하는 방법입니다.
  8. 8
    원문 각주이 기준선들은 모델이 추정한 값이므로 정확한 수치가 아니라 대략적인 방향으로 받아들여야 합니다. 또한 개인 사용자 데이터에만 기반하며, 전체 사용자 중 무작위로 추출한 0.1% 표본의 요청을 바탕으로 했습니다.
  9. 9
    용어 풀이상위 1% (99백분위수) — 전체를 사용량 순으로 100명 줄 세웠을 때 맨 위 한 명에 해당하는, 가장 많이 쓰는 집단을 뜻합니다.
  10. 10
    용어 풀이병렬 · 오케스트레이션 — 여러 개의 에이전트를 동시에(병렬로) 돌리고, 그 작업들을 하나의 흐름으로 지휘·조율하는 것을 ‘오케스트레이션’이라고 합니다. 오케스트라 지휘에 빗댄 표현입니다.
  11. 11
    용어 풀이히트맵 (Heat map) — 값의 크고 작음을 색의 짙고 옅음으로 나타내, 한눈에 비교할 수 있게 해 주는 표 형태의 그래프입니다.
  12. 12
    용어 풀이프런티어 · 최첨단 (Frontier) — 기술이 도달한 가장 앞선 경계를 뜻합니다. ‘프런티어 사용자’는 그 최첨단 도구를 가장 먼저, 가장 적극적으로 쓰는 사람들을 가리킵니다.