본문 바로가기

EDU

"AI 수능 1등급 시대, 맘껏 놀며 창의력 키워야" 마커AI 정철현 대표

문영훈 기자

2025. 01. 15

챗GPT의 근간이 되는 거대언어모델(LLM)은 기하급수적으로 발달하고 있다. 머신러닝의 아버지이자 구글 부사장이었던 제프리 힌턴 캐나다 토론토대 교수는 AI의 위험성을 경고하고 나섰다. 최근 챗GPT를 비롯한 LLM에게 수능 국어를 풀게 한 마커AI의 정쳘현 대표와 진민성 연구원을 만나 미래의 교육에 대한 이야기를 나눴다. 

마커A 김동규 연구원, 정철원 대표, 김병욱 연구원, 진민성 연구원(왼쪽부터).

마커A 김동규 연구원, 정철원 대표, 김병욱 연구원, 진민성 연구원(왼쪽부터).

“고등학교 국어과 교육과정을 기반으로 하여 대학에서 원만하고 능률적으로 수학(修學)하기 위해 필요한 국어 능력을 측정한다.”

한국교육과정평가원이 발간한 보고서에 따르면 대학수학능력시험(수능) 국어 영역의 평가 목표다. 교육부가 발표한 2025학년도 수능 채점 결과에 따르면 지난해 수능 국어 영역을 응시한 학생은 모두 46만1252명으로 이 중 4.37%에 해당하는 2만150명만 1등급 성적표를 받을 수 있었다. 대학에서 원만하고 능률적으로 수학하기 위해 필요한 국어 능력을 ‘충분히’ 갖췄다고 국가가 인정한 이들이다.

여기에 인간이 아닌 한 개체가 함께 이름을 올렸다. 지난해 11월 19일 마커AI가 운영하는 ‘수능 국어 LLM 리더보드’는 챗GPT의 최신 버전 ‘o1-프리뷰’ 모델이 2025학년도 수능 국어 영역 ‘화법과 작문’에서 원점수 97점을 받았다고 발표했다. 이는 수능 1등급에 해당하는 점수로 한 문제(8번)를 제외하고 모든 문항을 맞힌 것. 챗GPT 기존 모델인 ‘챗GPT-4o’가 같은 시험에서 4등급 수준(상위 40%)을 기록한 것과 비교하면 비약적인 성장이다.

챗GPT가 수능 국어 영역에서 1등급을 받았다는 건 어떤 의미일까. ‘수능 국어 LLM 리더보드’ 개발을 맡은 전민성 연구원은 “오픈소스 AI가 빠른 속도로 발전하며, 6개월~1년 사이에 화이트칼라 종말의 서막이 열릴 가능성이 있다”고 쓰기도 했다. 정철현 마커AI 대표는 “교육의 미래를 목적으로 한 것은 아니었지만 이후 반응을 통해 AI가 교육계에 미칠 영향에 대해서도 생각해보게 됐다”고 말했다. 정 대표는 한양대 산업공학과를 졸업하고 포스텍에서 인간공학으로 석사학위를, 텍스트 마이닝 연구로 박사학위를 받았다. 챗GPT에게 수능 문제라는 새로운 도전을 하게 한 두 사람을 만나 AI 시대의 교육과 곧 다가올 초지능 AI 시대에 대해 물었다.

사람처럼 문제 찍기도 하는 AI

챗GPT ‘O1-프리뷰’ 모델은 2025학년도 수능 국어 영역에서 1등급을 받았다.

챗GPT ‘O1-프리뷰’ 모델은 2025학년도 수능 국어 영역에서 1등급을 받았다.

챗GPT를 비롯한 거대언어모델(LLM)에 수능 국어 영역을 풀도록 만든 이유가 뭔가요.

정철현 | 2023년 연구원으로 들어온 대학생들하고 LLM 활용법과 훈련법에 대한 이야기를 나누고 있었어요. 때마침 수능 시점이 얼마 남지 않아 과연 LLM이 수능을 쳐보면 어떨까에 대한 의견이 나왔습니다. 지난해 10개년 수능 국어 영역을 풀어보게 하는 프롬프트(명령어)를 만들어 문제를 풀게 하면서 의미 있는 정보를 쌓았죠. 그리고 2025학년도 수능을 기다린 겁니다.



LLM이 수능 국어 영역을 푸는 원리가 궁금합니다.

정 | 언어모델(LM)을 쉽게 설명하면 앞 글자를 보고 다음에 나올 글자를 예측하는 AI라고 말할 수 있습니다. ’Large’가 붙은 거대언어모델(LLM)은 이 구조가 인간의 뇌처럼 엄청나게 커진 거죠. 그러면 일일이 훈련을 시키지 않고 예시만 하나 던져줘도 알아채는 사람처럼 말하게 됩니다. LLM은 문맥을 파악해서 글자를 생성하는데, 던져진 글이 질문이라면 그다음에 어울리는 답을 자연스럽게 말하게 됩니다. 사람 역시 문제를 보면 텍스트 정보를 받아들여 지시에 따라 가장 적합한 선택지를 고르잖아요. 인간의 논리 전개 과정과 유사하다고 보면 됩니다.



왜 수능 응시 과목을 국어 영역에 한정했나요.

정 | 챗GPT는 텍스트 자료에 한해 정확한 이해도를 보입니다. 챗GPT를 비롯한 LLM이 공정한 평가를 받으려면 이미지 데이터 역시 텍스트의 형태로 바꿔줘야 합니다. 그래서 여기에 가장 용이한 국어 영역을 택했고요. 앞으로 수학 등 다른 영역으로 확장해보려고 합니다.



결과를 예상하셨나요.

정 | LLM의 논리력과 추론력은 계속 성장해왔습니다. 당연히 9월에 출시된 ’o1-프리뷰’ 모델이 더 좋은 성적을 받을 거라 예측했지만 바로 1등급을 받을 줄은 몰랐습니다. o1-프리뷰 모델은 여러 답안을 가지치기해 그중에서 선택하는 구조로 돼 있기 때문에 논리적 추론에서 훨씬 더 뛰어난 성과를 내놓는 게 아닐까 싶습니다.



챗GPT도 답을 객관식으로 내놓나요.

진민성 | 2023년, 수능 국어 영역 10개년 문제를 풀게 하는 과정에서 챗GPT로부터 양질의 답변을 얻을 수 있는 프롬프트를 만들어냈습니다. 챗GPT가 문제를 찍어서 맞힐 수도 있기 때문에 답변에 대한 근거와 논리적인 추론 과정을 설명하도록 지시해두었습니다.



챗GPT가 사람처럼 문제를 찍기도 하는군요.

정 | 그럼요. 환각 현상이라고 알려져 있죠. 실제로는 없거나 사실이 아닌 정보를 사실인 것처럼 말하는 겁니다. 챗GPT는 기본적으로 모르겠다는 답을 하지 않아요. 그러니까 항상 자기가 잘 아는 것처럼 그럴싸한 답을 내놓죠. 확신을 지닌 표현을 사용하기 때문에 문제를 푸는 논리적 과정을 확인해야 하는 겁니다.



8번 문항은 왜 틀렸나요.

진 | 8번 비문학 문제는 지문과 보기 그리고 선지와의 세밀한 대조가 필요한 문항이었습니다. 지문을 읽을 때 취지를 잘 파악하지 못해서 보기의 근거에 중점을 두고 푸는 논리적인 오류를 범했습니다. 문제에 대한 이해가 깊지 않았다고 평가할 수 있습니다.



문학 문제까지 다 맞혔습니다. 챗GPT가 내놓는 문제 풀이가 보편적으로 통용되는 수능 국어 영역 풀이와 유사한가요.

진 | 큰 차이는 없었습니다. 챗GPT가 내놓은 답변의 논리가 탄탄했고요. 기존 풀이 과정과 비교해 크게 손색이 없었습니다. 국어 영역에서는 문학 파트 역시 논리를 요구합니다. o1-프리뷰 모델이 강점을 살려 시뿐만 아니라 고전문학 역시 무리 없이 풀어냈습니다.


한국어 기반 LLM도 있는데 왜 국어 영역에서 챗GPT의 성적이 압도적인가요.

정 | 한국어만 배운다고 한국어를 잘하는 건 아니잖아요. 지금 글로벌 LLM은 전 세계 언어를 배우며 지식을 연결하고 있어요. 지식을 학습하는 양 자체가 다르죠. 다만 글로벌 LLM을 한국어에 맞춰 튜닝하게 되면 한국어 실력이 향상되기도 해요. 글로벌 LLM이 아직 개선될 여지가 있는 셈이죠. 국내 LLM 개발 회사는 더 분발해야 하는 상황이고요.



AI 발달이 교육 분야에 어떻게 활용될 수 있을까요.

정 | AI는 풀이 과정을 스스로 만들 수 있어요. 지금 단계에선 풀이 과정이 완벽하지 않을 수 있지만 새로운 해석을 보여줄 수도 있죠. 가령 바둑에서도 AI가 인간의 수준을 뛰어넘었잖아요. AI가 내놓은 새로운 방식의 풀이를 해석할 능력이 된다면 학생들이 생각할 수 있는 범위가 넓어지겠죠. 또 학생 입장에서 문제를 풀 때 새로운 아이디어가 떠올랐는데 이를 어떻게 구체화할지 모르겠다면 챗GPT에게 그 방향을 제시해달라고 할 수 있겠죠.



대표님은 자녀들에게는 어떻게 챗GPT를 사용하라고 하나요.

정 | 중학생 아들, 딸에겐 우선 AI를 적극적으로 써보라고 권합니다. 그래야 챗GPT의 장점과 단점을 알 수 있죠. 앞으로 챗GPT는 기하급수적인 속도로 발전할 텐데 어떻게 보완되는지를 확인할 수도 있고요.



주의할 점도 있나요.

정 | 우려되는 점은 특히 어린 친구들 사이에서 챗GPT가 종교화되고 있다는 겁니다. 챗GPT가 말하는 건 무조건 맞다고 생각하는 거죠. 하지만 지금도 환각 현상은 빈번하게 나타납니다. 그래서 적극적으로 AI를 활용하되 매번 의심해야 합니다. 챗GPT는 맥락을 파악하는 데 중점을 두다 보니 같은 내용의 질문을 하더라도 질문자의 의도에 따라 답변이 달라집니다. 의도를 파악하고 거기에 맞추는 거죠. 눈치를 보는 거네요.

AI, 자주 접하게 하되 의심하도록 가르쳐라

챗GPT 'O1-프리뷰’ 모델은 2025학년도 수능 국어 영역에서 유일하게 8번 문제를 틀렸다.

챗GPT 'O1-프리뷰’ 모델은 2025학년도 수능 국어 영역에서 유일하게 8번 문제를 틀렸다.

대화할 때 상대방의 심기를 거스르지 않게 하는 데 초점이 맞춰져 있는 건가요.

정 | 맞습니다. 또 윤리성 측면에서 차별적인 발언을 못 하도록 설계돼 있어요. 윤리적 측면만 어긋나지 않으면 사용자가 원하는 스타일로 답을 내놓고, 그래서 말이 되지 않는 답변도 논리적인 것처럼 이야기해요. 그러니까 챗GPT의 이야기를 곧이곧대로 받아들이는 습관을 들이면 위험합니다. 저는 대학에서도 학생들에게 기본적으로 챗GPT를 사용하라고 합니다. 과제를 하려면 질문 한 번으로는 되는 게 아니거든요. 자기 생각을 전개하려면 다양한 질문을 던지고 계속 재작업을 해야 합니다. 그 노력에 따라 과제의 완성도는 달라질 수밖에 없죠.



AI 전문가로서 본 한국 교육의 문제점이 있다면요.

정 | 전 교육 전문가가 아니니까 숟가락 정도만 얹고 싶은데요. 한국 교육은 ‘정답 머신’이 되길 강요합니다. 그래서인지 대학에서 본 학생들은 성공하지 못할 것 같으면 시도조차 안 하려고 하는 경향이 커요. LLM이 계속 발전하는 상황에서 정답 찾는 법을 가르치는 게 유효한 방식인지 자문해야 한다고 생각해요. AI 시대에는 판단 능력이 중요한데 이건 자기표현에서부터 시작하거든요. 맞든 틀리든 의견을 개진하고 사람들과 토론하는 연습이 중요해질 거라고 생각합니다.

진 | 저는 고등학교 때만 해도 완벽주의가 있었어요. 무조건 점수를 잘 얻어야 하고 그를 위해서 최적화된 공부 방법을 택해야 한다고 생각했죠. 대학교에서 경험을 해보니까 생각의 폭을 넓히는 게 중요하다는 걸 깨달았어요. 초중고 때도 그런 연습을 했으면 더 좋지 않았을까 싶습니다.



LLM은 이제 청소년들과 대학생들의 과제 용도로 사용되는 새로운 시대의 ‘지식iN’ 수준을 아득히 넘어서고 있다. 2024년 노벨물리학상은 AI 머신러닝 체계의 기초를 확립한 존 홉필드 미국 프린스턴대 교수와 제프리 힌턴 캐나다 토론토대 교수에게 돌아갔다. AI 분야에서 노벨상 수상자가 나온 것은 이번이 처음이다.

힌턴 교수는 인터뷰에서 ’초지능 AI가 존재할 수 있다고 보느냐‘는 질문에 “예전에는 초지능 개발 시기가 훨씬 더 늦을 것이라고 예상했지만, 최근 개발 속도를 보면 5∼20년이면 개발이 될 것 같다”며 “어떻게 (AI에 대한) 통제력을 유지할 수 있을지 심각한 고민이 필요하다”고 말했다. 초지능 AI 시대가 도래하면 우리는 무엇을 할 수 있을까.

화이트칼라 소멸 머지않았다

마커AI는 2023년 ‘수능 국어 LLM 리더보드’를 만들어 챗GPT를 비롯한 거대언어모델(LLM) 성능을 비교하고 있다.

마커AI는 2023년 ‘수능 국어 LLM 리더보드’를 만들어 챗GPT를 비롯한 거대언어모델(LLM) 성능을 비교하고 있다.

두 분은 평소에 AI를 어떻게 활용하나요.

정 | 저는 먼저 AI에게 질문하지는 않아요. 검색해서 자료를 취합한 뒤 이를 바탕으로 챗GPT에게 질문하죠. 그리고 그 결과를 다시 구글링해서 확인합니다. 검색과 챗GPT와의 채팅을 6:4의 비율로 계속 왔다 갔다 합니다.

진 | 개발하면서 코드가 맞냐 틀리냐를 많이 물어보고요. 보고서를 작성할 때도 많이 사용합니다. 챗GPT는 복잡한 개념이나 어려운 단어를 잘 풀어서 설명해줍니다. 복잡한 개념을 단순화하거나 다른 사람들도 다 이해할 수 있는 언어로 바꿔야 할 때 많이 활용하고 있습니다. 2023년까지만 해도 리포트를 작성할 때 환각 현상이 눈에 많이 띄어서 일일이 수작업으로 내용을 확인하고 고쳐야 했는데 그게 점점 줄어드는 걸 실제로 느껴요.

정 | 저는 교수로 대학생들을 가르치고 있는데, 학생들 과제 수준이 1~2년 사이에 좋아졌어요. 들어오는 학생의 수준이 크게 달라진 게 아니라면 그건 챗GPT의 수준이 높아진 거죠.



발달 속도가 무섭네요.초지능 AI 시대에는 어떤 능력이 필요할까요.

정 | 챗GPT를 잘만 이용하면 화이트칼라 직원 여러 명을 고용한 것과 같은 효과를 낼 수 있습니다. 단순 반복 업무나 자료 조사를 챗GPT에게 맡겼을 때 이를 잘 정리할 능력만 있으면 되는 거죠. 과거 구글의 시대가 왔을 때 검색을 잘하는 사람이 업무 능력을 인정받았잖아요. 이처럼 챗GPT에게 업무를 맡기고 이를 잘 조율하는 능력이 점점 더 중요해질 겁니다.



회사원에게 더 중요한 능력 같네요.

정 | 안타까운 건 현재 현장에서 업무를 하는 사람들의 AI 활용 능력이 천차만별이라는 거죠. 특히 화이트칼라 중에는 원래 해왔던 방식으로 일하는 분들이 많아요. 새롭게 뭔가를 배우는 게 피곤하다는 건 알지만 AI 툴의 발전 속도는 어마어마하게 빠릅니다. 그걸 받아들이지 않으면 어느 순간 따라잡을 수 없을 만큼 뒤처져 있을 거예요. 저야 50대를 바라보고 있지만 사회 초년생이라면 이 점을 특히 유의해야 합니다.



진민성 연구원님은 블로그를 통해 “6개월~1년 사이에 화이트칼라 종말의 서막이 열릴 가능성이 있다”고 썼습니다.

진 | 실험을 시작할 때 현재 LLM이 인간의 언어 수준과 논리력을 어느 수준까지 따라잡았는지 보고 싶었어요. 그래서 언어 측면에서는 한국에서 가장 공신력 있는 시험인 수능 국어를 택했고요. 그런데 상위 4% 안에 드는 결과를 낸 걸 보고 연구실에서 놀라기도 했습니다. 많은 의견을 주고받았는데, 화이트칼라가 하는 일이 주로 언어를 다루는 분야라면 삽시간에 AI로 대체될 수 있다는 결론에 다다랐고요. 많은 분이 의견을 주셨으면 합니다.

정 | 사실 저도 수능을 다시 보라고 하면 1등급을 받을 자신이 없어요(웃음). 기업 입장에서는 수능 국어 1등급 수준의 논리력을 가진 직원을 한 달에 3만 원으로 고용할 수 있는 거거든요. 화이트칼라의 대부분은 정보를 찾고 이를 논리적으로 정리하는 일을 하는데, 그게 AI로 대체될 거라는 의미죠.



그런 세상이 온다면 인간은 뭘 해야 할까요.

정 | 저는 인간은 결국 놀아야 하는 존재라고 생각해요. 사실 생산성 면에서 인간은 AI와 대결해 이길 수가 없어요. 그리고 AI가 생산해낸 부를 공평하게 잘 나눠 갖고요. 그렇게 된다면 인간은 스스로의 재미를 추구하며 사는 게 맞지 않을까요. 감정을 교류하고, 의미 있는 콘텐츠를 만들어내는 거죠. 근미래에는 생산성이 높은 AI를 컨트롤하는 소수의 사람 빼고는 지금 우리가 ‘직업’이라고 부르는 걸 갖고 있기는 어렵다고 생각해요.




#마커AI #수능 #국어 #여성동아

‌사진 000 
‌사진제공 마커AI 
‌사진출처 한국교육과정평가원



  • 추천 0
  • 댓글 0
  • 목차
  • 공유
댓글 0
닫기