경복대학교 허서윤 교수가 순천향대학교 박진혁 교수와 함께 한국보건의료인국가시험원(이하 국시원)에서 주관하는 한국 작업치료사 면허시험에 ChatGPT 3.5 모델을 적용, 새로운 교육 방법을 제시하며 학계의 주목을 받았다.
거대언어모델(Large Language Model, LLM)은 인간 언어를 이해하고 생성하는 데 특화된 인공지능 기술로, 그중에서도 ChatGPT는 딥러닝 알고리즘과 통계 모델을 통해 자연어 처리에 뛰어난 성능을 보이며 다양한 분야에서 활용되고 있다.
허 교수는 “ChatGPT는 생의학 및 임상 과학을 포함한 복잡한 지식을 처리하는 능력을 갖추고 있어, 최근에는 미국 의사면허 시험(USMLE)에서도 90% 이상의 높은 점수를 기록한 바 있다. 이는 AI 기반 학습 도구가 의학 교육과 개념 이해에 있어 중요한 역할을 할 수 있음을 시사한다”고 설명했다.
이처럼 의료 분야에서 ChatGPT를 포함한 거대언어모델의 활용에 대한 연구는 활발히 진행되고 있지만, 국내 면허 시험에 이를 적용한 사례는 드물어 아쉽다는 목소리가 컸다. 허서윤 교수팀은 이러한 한계를 극복하고자 국시원이 공개한 최근 5개년(2018~2022년) 한국 작업치료사 면허 시험 문항에 ChatGPT 3.5를 적용, 그 성능을 분석하는 연구를 진행했다.
연구팀은 ChatGPT 3.5에 면허 시험 문항을 학습시키고, 다양한 각도에서 해석할 수 있는 파인튜닝(fine tuning)의 과정을 거쳐 국시원에서 공개한 정답과 비교하는 방식으로 ChatGPT의 성능을 평가했다. 그 결과, 면허 시험의 합격 기준인 60%의 정확도는 달성하지 못했으나, 문화적 특성에 영향을 받는 의료 법규 관련 문항을 제외한 전공 지식 문항에서는 높은 정확도를 기록했다.
더불어, 세 명의 독립 평가자가 기록한 ChatGPT의 답변 일치도가 통계적으로 높은 신뢰도를 보였다는 점에서, ChatGPT가 단순한 도구를 넘어 고차원적인 교육 도구로 활용할 수 있음을 재조명했다.
허서윤 교수는 이번 연구에 대해 "보건의료분야 교육 혁명에 거대언어모델(LLM)과 ChatGPT를 적용할 수 있는 대학 교육 혁신 방안은 AI 기반 맞춤형 학습 시스템 도입, AI 시뮬레이션 기반 실습 강화, AI를 활용한 평가와 피드백 자동화로 요약될 수 있을 것"이라며, "이번 연구는 이러한 혁신 방안을 실제 대학 교육에 적용할 수 있는 근거를 마련한 중요한 성과"라고 평가했다.
이번 연구 결과는 ‘Performance of ChatGPT on the National Korean Occupational Therapy Licensing Examination’이라는 제목으로 국제 학술지 Digital Health (IF: 3.9, Health Policy & Service 분야 Q1, 2022 JCR 기준) 2024년 제10권에 게재되었다.