OpenAI o3-mini 개봉 – 브런치

You can make anything
by writing
C.S.Lewis
DeepSeek에 맞서, 비용 효율적인 추론의 지평을 넓히려는 시도
오픈AI가 Chat GPT o3-mini를 공개했다. DeepSeek의 여파를 의식한 것인지, 비용 효율적인 추론, 이란 말이 눈에 먼저 들어온다. 미국 현지 시각 2025년 1월 31일, 방금 오픈AI가 올린 따끈한 o3-mini 소개 게시물을 번역+각주 적어보았다. 그리고 o1과 비교해 사용해보았다. ChatGPT 무료회원도 일부 이용 가능하다하니, 궁금하면 아래 그림처럼 ChatGPT에서 채팅창 열 때 o3-mini, o3-mini-high를 선택해서 대화하면 된다.

 

요약하면, 
OpenAI o3-mini는 기존 모델 대비 더 빠르고 강력한 추론 능력을 갖춘 최신 AI 모델이다.
– 특히 수학, 코딩, 과학(STEM) 분야에서 뛰어난 성능을 제공한다.
저렴한 비용과 짧은 지연 시간을 유지하면서도, 구조화된 출력, 함수 호출, 개발자 메시지 지원과 같은 기능을 추가해 바로 프로덕션에 활용할 수 있도록 최적화되었다. 
– 또한, 추론 노력(낮음, 중간, 높음) 옵션을 제공하여 속도와 정확성 간의 균형을 조절 가능하고, 검색 기능 통합으로 최신 정보를 반영할 수 있다. 
– 성능 평가에서도 o1-mini 대비 56% 더 선호되었으며, 주요 오류 발생률이 39% 감소하여 보다 명확하고 정밀한 답변을 제공한다 한다.
안전성과 탈옥 방지 면에서 4o보다 낫다.
– ChatGPT Plus, Team, Pro 사용자 및 일부 API 개발자가 즉시 이용할 수 있으며, 무료 사용자도 일부 기능을 체험 가능하다.

Chat GPT에게 o3-mini의 소개 글을 학습시키고, 어떤 프롬프트나 기능들이 좋을지 물어봤습니다. 그 결과 아래와 같은 부분들을 효과적이라 제시했다.

✅ 사용 예시: 복잡한 수학 문제 또는 알고리즘을 해결할 때
� 프롬프트 : "주어진 문제를 해결하는 논리적 접근 방식을 단계별로 설명한 후, 최적의 해결 방법을 도출하세요. 필요하면 수식을 사용하고, 각 단계의 이유를 명확히 설명해 주세요."
� 예제 : "한 변의 길이가 10인 정육각형의 넓이를 구하는 공식을 도출하고, 그 과정에서 사용된 기하학적 원리를 설명해 주세요."

✅ 사용 예시: 코딩 문제 해결 시 버그를 찾거나 최적화할 때
� 프롬프트 : "다음 코드를 분석하여 오류를 찾아 설명하고, 보다 최적화된 버전을 작성해 주세요."
� 예제 : 
def factorial(n):
    if n = 0:
        return 1
    else:
        return n * factorial(n-1)

✅ 사용 예시: 어려운 과학 개념을 이해하기 쉽게 설명할 때
� 프롬프트 : "초등학생(또는 고등학생)도 이해할 수 있도록 쉽게 설명해 주세요. 비유나 일상적인 예시를 사용해 주세요."
� 예제 : "양자 얽힘(Quantum Entanglement)이란 무엇인가요?"

✅ 사용 예시: 실험적 접근 방식이 필요한 문제 해결
� 프롬프트 : "이 문제를 해결하기 위한 가설을 세운 후, 가능한 실험 방법을 제시하고 예상 결과를 분석해 주세요."
� 예제 :  "물의 온도가 커피의 맛에 미치는 영향을 연구하려면 어떤 실험을 수행해야 할까요?"

✅ 사용 예시: 새로운 아이디어를 도출할 때
� 프롬프트 : "이 문제를 해결할 창의적인 3가지 방법을 제안해 주세요. 각각의 장점과 단점을 함께 설명해 주세요."
� 예제 : "탄소 배출을 줄이면서 에너지를 효율적으로 사용할 방법은?"

하여, 일부러 위 프롬프트 + 질문들을 Chat GPT 4o와 o3-mini에 동일하게 던져보며 비교해보았습니다. 아래 클릭하시면 결과 전체를 보실 수 있습니다.

4o 로 질문 실험 (보기)
https://chatgpt.com/share/679d659f-2f0c-8009-822a-40ab1a7e2f3f
Shared via ChatGPT
chatgpt.com
o3-mini 로 질문 실험 (보기)
https://chatgpt.com/share/679d65b4-e6f4-8009-ac53-878831509584
Shared via ChatGPT
chatgpt.com

흠, 비교해본 결과만으로는, 섬세하게 봐도, 최종 결과의 품질에서 현격한 차이까지는 보이지 않았다. 다만, 똑같은 추론 결과의 논리적 구조나 Depth는 o3-mini가 좀더 깊이 파들어간 결과 도출을 해줬다. (특히 4번 실험설계, 5번 브레인스토밍) 다만 이는 2차 3차 프롬프팅까지 해봐야 정밀한 비교가 될 것 같다.
한동안은 추론을 염두에 두고 다양한 사용을 병행해보면 사용 예들이 쌓이며 보다 효과적인 사용 방법이 나올 것이라 본다.

GPT 분야 실무전문가이신 이종범 교수님의 빠른 리뷰 영상도 관심있으시면 함께 보실 것을 제안한다. 최근 핫한 딥시크와 비교해주셨다.
– 영상보기 https://www.youtube.com/watch?v=CWWVvsqLfW4

가벼운 소개와 맛배기로, 오늘은 이상. 
아래는 Open AI o3-mini 소개글의 번역본 전문이다.

(by DeepL, 오역 가능) 원문 전문 https://openai.com/index/openai-o3-mini/

오픈AI 추론 시리즈 중 가장 비용 효율적인 최신 모델인 OpenAI o3-mini를 오늘 ChatGPT와 API에서 모두 사용할 수 있도록 출시합니다. 2024년 12월에 미리 공개된 이 강력하고 빠른 모델은 소형 모델의 한계를 뛰어넘어 과학, 수학, 코딩에 특히 강점을 가진 뛰어난 STEM 기능을 제공하면서도 OpenAI o1-mini의 저렴한 비용과 짧은 지연 시간을 유지해줍니다.

OpenAI o3-mini는 다음과 같이 개발자의 요청이 많았던 기능을 지원하는 최초의 소규모 추론 모델입니다.함수 호출(새 창에서 열기),구조화된 출력(새 창에서 열기)개발자 메시지(새 창에서 열기)를 사용하여 바로 프로덕션에 사용할 수 있습니다. OpenAI o1-mini 및 OpenAI o1-preview와 마찬가지로, o3-mini는 다음을 지원합니다.스트리밍(새 창에서 열림). 또한 개발자는 다음 세 가지 중에서 선택할 수 있습니다.추론 노력(새 창에서 열기) 옵션(낮음, 중간, 높음)을 선택하여 특정 사용 사례에 맞게 최적화할 수 있습니다. 이러한 유연성 덕분에 복잡한 문제를 해결할 때는 o3-mini를 통해 "더 깊이 사고"하거나 지연 시간이 우려되는 경우 속도를 우선시할 수 있습니다. o3-mini는 비전 기능을 지원하지 않으므로 개발자는 시각적 추론 작업에는 OpenAI o1을 계속 사용해야 합니다. o3-mini는 오늘부터 채팅 완료 API, 지원 API 및 배치 API에서 일부 개발자를 대상으로 출시됩니다. API 사용 티어 3-5(새 창에서 열기).

ChatGPT 플러스, 팀, 프로 사용자는 오늘부터 OpenAI o3-mini에 액세스할 수 있으며, 일주일 후 엔터프라이즈 액세스 권한이 제공됩니다. o3-mini는 모델 선택기에서 OpenAI o1-mini를 대체하여 더 높은 속도 제한과 낮은 지연 시간을 제공하여 코딩, STEM 및 논리적 문제 해결 작업에 매력적인 선택이 될 것입니다. 이번 업그레이드의 일환으로 Plus 및 Team 사용자의 요금 한도가 o1-mini의 경우 하루 50건에서 o3-mini의 경우 하루 150건으로 세 배로 늘어납니다. 또한, o3-mini는 이제 검색과 함께 작동하여 관련 웹 소스에 대한 링크가 포함된 최신 답변을 찾을 수 있습니다. 이는 추론 모델 전반에 걸쳐 검색을 통합하기 위해 작업 중인 초기 프로토타입입니다.

오늘부터 무료 요금제 사용자도 메시지 작성기에서 ‘이유’를 선택하거나 응답을 다시 생성하여 OpenAI o3-mini를 사용해 볼 수 있습니다. 이는 ChatGPT에서 무료 사용자에게 추론 모델이 제공되는 첫 번째 사례입니다.

OpenAI o1은 광범위한 일반 지식 추론 모델로 남아 있지만, OpenAI o3-mini는 정밀도와 속도가 요구되는 기술 영역에 특화된 대안을 제공합니다. ChatGPT에서 o3-mini는 중간 정도의 추론 노력을 사용하여 속도와 정확성 사이의 균형 잡힌 절충안을 제공합니다. 모든 유료 사용자는 모델 선택기에서 응답을 생성하는 데 시간이 조금 더 걸리는 고지능 버전을 위해 o3-mini-high 을 선택할 수 있는 옵션도 제공됩니다. 프로 사용자는 o3-mini 및 o3-mini-high 사용이 가능합니다.

이전 버전인 OpenAI o1과 마찬가지로, OpenAI o3-mini는 STEM 추론에 최적화되었습니다. 추론 노력이 중간 정도인 o3-mini는 수학, 코딩, 과학에서 o1의 성능과 비슷하면서도 더 빠른 응답을 제공합니다. 전문가 테스터들의 평가에 따르면 o3-mini는 OpenAI o1-mini보다 더 강력한 추론 능력으로 더 정확하고 명확한 답변을 생성하는 것으로 나타났습니다. 테스터들은 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 주요 오류가 39% 감소하는 것을 관찰했습니다. 중간 정도의 추론 노력으로 o3-mini는 AIME 및 GPQA를 포함한 가장 까다로운 추론 및 지능 평가에서 o1의 성능과 비슷했습니다.

수학: 낮은 추론 노력으로 OpenAI o3-mini는 OpenAI o1-mini와 비슷한 성능을 달성하는 반면, 중간 노력으로 o3-mini는 o1과 비슷한 성능을 달성합니다. 한편, 높은 추론 노력으로 o3-mini는 OpenAI o1-mini와 OpenAI o1을 능가하며, 회색 음영 영역은 64개의 샘플을 사용한 다수결 투표(합의)의 성능을 나타냅니다.

박사 수준의 과학 문제 : 박사 수준의 생물학, 화학, 물리학 문제에서 추론 노력이 낮은 경우 OpenAI o3-mini는 OpenAI o1-mini 이상의 성능을 달성합니다. 높은 노력을 기울이면 o3-mini는 o1과 비슷한 성능을 달성합니다.

연구 수준의 수학: 높은 추론 능력을 갖춘 OpenAI o3-mini가 FrontierMath에서 이전 버전보다 더 나은 성능을 발휘합니다. FrontierMath에서 Python 도구를 사용하라는 메시지가 표시되면 추론 노력이 높은 o3-mini는 첫 번째 시도에서 32% 이상의 문제를 해결하며, 여기에는 28% 이상의 고난도(T3) 문제도 포함됩니다.

코딩 비교 : Codeforces의 경쟁 프로그래밍에서 OpenAI o3-mini는 추론 노력이 증가함에 따라 점수가 점점 높아져서 o1-mini를 모두 능가합니다. 중간 정도의 추론 노력으로 o1의 성능과 일치합니다.

소프트웨어 엔지니어링: o3-mini는 SWEbench에서 검증된 최고 성능의 출시 모델입니다. 오픈 소스 에이전트리스 스캐폴드(39%) 및 내부 도구 스캐폴드(61%)를 포함하여 추론 노력이 높은 SWE벤치 검증 결과에 대한 추가 데이터 포인트는 다음을 참조하세요, 시스템 카드를 참조하세요.

LiveBench 코딩: OpenAI o3-mini는 중간 수준의 추론 노력에서도 o1-high를 능가하여 코딩 작업의 효율성을 강조합니다. 높은 추론 노력에서는 o3-mini가 선두를 더욱 확장하여 주요 지표에서 훨씬 더 강력한 성능을 달성합니다.

일반 지식: o3-mini는 일반 지식 영역 전반에 걸쳐 지식 평가에서 o1-mini를 능가합니다.

인간 선호도 평가: 외부 전문가 테스터들의 평가에서도 OpenAI o3-mini가 OpenAI o1-mini보다 더 정확하고 명확한 답변을 생성하며 특히 STEM에서 추론 능력이 더 강하다는 것을 보여주었습니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 주요 오류가 39% 감소하는 것을 관찰했습니다.
OpenAI o1에 필적하는 인텔리전스를 갖춘 OpenAI o3-mini는 더 빠른 성능과 향상된 효율성을 제공합니다. 위에서 강조한 STEM 평가 외에도 o3-mini는 중간 정도의 추론 노력으로 추가적인 수학 및 사실성 평가에서 우수한 결과를 보여주었습니다. A/B 테스트에서 o3-mini는 평균 응답 시간이 7.7초로 10.16초인 o1-mini보다 24% 더 빠른 응답을 제공했습니다.

대기 시간: o3-mini는 o1-mini보다 평균적으로 2500ms 더 빠르게 첫 번째 토큰을 생성합니다.

OpenAI o3-mini가 안전하게 반응하도록 가르치기 위해 우리가 사용한 핵심 기술 중 하나는 심의적 정렬(deliberative alignment)입니다. 이 기술은 사용자가 질문을 하기 전에 인간이 작성한 안전 사양에 대해 추론하도록 모델을 훈련시키는 것입니다. OpenAI o1과 마찬가지로, 우리는 o3-mini가 까다로운 안전 및 탈옥 평가에서 GPT-4o를 훨씬 능가한다는 것을 발견했습니다. 배포 전에, 우리는 o1과 동일한 준비, 외부 레드팀, 안전 평가 접근법을 사용하여 o3-mini의 안전 위험을 신중하게 평가했습니다. 얼리 액세스로 o3-mini를 테스트해 주신 안전 테스터 여러분께 감사드립니다. 아래의 평가 내용과 잠재적 위험에 대한 포괄적인 설명 및 완화 효과에 대한 내용은 o3-mini 시스템 카드에서 확인할 수 있습니다.

OpenAI o3-mini의 출시는 비용 효율적인 지능의 한계를 뛰어넘으려는 OpenAI의 사명에 또 다른 한 걸음을 내디딘 것입니다. 비용을 낮게 유지하면서 STEM 영역에 대한 추론을 최적화함으로써 고품질 AI를 더욱 쉽게 이용할 수 있도록 하고 있습니다. 이 모델은 지능의 비용을 낮추는 우리의 성과를 이어가고 있습니다. GPT-4를 출시한 이후 토큰당 가격을 95% 낮추면서 최상위 추론 기능을 유지하고 있습니다. AI 채택이 확대됨에 따라, 우리는 규모에 맞게 지능, 효율성, 안전성의 균형을 유지하는 모델을 구축하여 최전선에서 선도적인 역할을 수행하기 위해 최선을 다하고 있습니다.

OpenAI
Training, Eval, Frontier Evals & Preparedness 등은 연구기여자 소개글은 생략

-끝- 
우리 아이들에게 미래 일자리를 만들어주고 세상의 문제를 해결하는 스타트업을 섬기고 수출기업의 디지털 혁신을 돕는 전도사입니다. 오픈이노베이션과 클라우드서비스무역을 연구합니다.

source

모두의백화점

오섹시코리아.com

모든 파트너 기타 문의 http://문의다모아.com

댓글

답글 남기기