김종애 교수는 인공지능 교육 분야에서 10년 이상의 경력을 가지고 있으며, 교육 콘텐츠 개발과 AI 기반 학습 시스템 연구를 주도하고 있습니다.
핵심 연구진
박종민 교수, 최정수 교수, 김명섭 교수, 심미형 교수는 각각 교육공학, 데이터 분석, 문제 설계, AI 평가 시스템 분야의 전문가로 구성되어 있습니다.
AI 2분과는 인공지능 기술을 교육 현장에 적용하여 효율적인 학습 자료 개발과 평가 시스템 구축을 목표로 하는 연구 그룹입니다. 특히 AI를 활용한 문제 개발 및 품질 검증 과정에서 혁신적인 접근 방식을 연구하고 있습니다.
연구 배경 및 목적
AI를 활용한 문제풀 개발의 가능성 검토
인공지능 기술이 발전함에 따라 교육 콘텐츠 개발에서도 AI의 활용 가능성이 높아지고 있습니다. 본 연구는 특히 문제풀 개발 과정에서 AI의 효율성과 정확성을 검증하는 데 중점을 두었습니다.
최적의 AI 도구 탐색
다양한 AI 도구 중에서 문제풀 개발에 가장 적합한 도구는 무엇인지 비교 분석하고, 각 도구의 장단점을 파악하여 최적의 선택을 도출하고자 했습니다.
인간-AI 협업 모델 구축
AI가 자동으로 생성한 문제의 품질을 인간 전문가가 검토하는 과정에서, 효율적인 협업 모델을 구축하여 양질의 문제풀을 개발하는 방법론을 연구했습니다.
문제풀 개발 프로세스
초기 단계 - 자료 선정 및 문제 생성
1
AI 툴 학습용 자료 선정
우편 관련 교재와 참고 자료를 선별하여 AI 학습 데이터로 활용
2
문제 생성
선정된 자료를 바탕으로 AI 도구를 활용하여 다양한 유형의 문제 생성
검토 단계 - 품질 검증
1
AI를 통한 문제 품질 검토
AI 도구로 생성된 문제의 1차 품질 검증 수행
2
인간 전문가의 최종 검토
전문가가 AI 생성 문제의 정확성과 교육적 가치 평가
위 프로세스를 통해 AI와 인간 전문가의 협업으로 양질의 문제풀을 효율적으로 개발할 수 있는 시스템을 구축했습니다.
AI 툴 학습용 자료 선정
문제풀 개발을 위해 우편 업무 관련 전문 교재와 참고 자료를 선정했습니다. 선정된 자료는 우편 서비스의 기본 개념부터 실무적 내용까지 포괄적으로 다루고 있어, AI가 다양한 난이도와 유형의 문제를 생성할 수 있는 기반이 되었습니다.
특히 실제 우편 업무에서 활용되는 핵심 개념과 절차에 중점을 두어, 현장에서 즉시 적용 가능한 실용적인 문제 개발을 목표로 했습니다. 이러한 자료 선정은 AI가 생성하는 문제의 품질과 실용성을 크게 향상시켰습니다.
문제풀 제작 - 프롬프트 설계(1)
범위 지정 및 문항 수 설정
전체 범위에서 균등하게 4지선다 10문제를 만들어줘.
문제 유형 다양화
문제 유형을 단순 4지선다, 보기조합형, 사례형, 조건 조합형, 문제해결형, 프로세스의 순서를 묻는 유형을 골고루 섞어서 10문항을 만들어줘.
정답 및 출제근거 명시
정답을 표기해주고, 정답의 출제근거를 목차와 목차명, 페이지까지 표기해 주고, 내용도 자세히 설명해줘.
AI가 양질의 문제를 생성할 수 있도록 구체적이고 명확한 프롬프트를 설계했습니다. 특히 문제 유형의 다양성을 확보하고, 정답에 대한 근거를 명확히 제시하도록 하여 교육적 가치를 높였습니다.
문제풀 제작 - 프롬프트 설계(2)
여러 자료 통합 활용
두번째 자료의 소스를 전체 범위에서 균등하게 10문제를 만들어줘.
문제 형식 지정
4지선다 문제를 만들어줘.
문제 유형 다양화
문제 유형을 단순 4지선다, 보기조합형, 사례형, 조건 조합형, 문제해결형, 프로세스의 순서를 묻는 형태 등을 골고루 섞어서 10문항을 만들어줘.
참고 자료 활용
문제유형은 첫번째 첨부한 파일을 참고해줘.
정답 및 출제근거 제시
정답을 표기해주고, 정답의 출제근거를 목차와 목차명, 페이지까지 표기해 주고, 해당 내용도 덧붙여줘.
추가적인 프롬프트 설계를 통해 더욱 세밀하고 구체적인 지시를 제공했습니다. 여러 자료를 통합적으로 활용하고, 기존 문제 유형을 참고하도록 하여 일관성 있는 문제 개발을 유도했습니다. 이러한 구체적인 프롬프트는 AI가 보다 정확하고 교육적 가치가 높은 문제를 생성하는 데 큰 도움이 되었습니다.
AI 도구 비교 분석
ChatGPT
VS
NotebookLM
본 연구에서는 문제풀 개발을 위해 두 가지 주요 AI 도구인 ChatGPT와 NotebookLM을 비교 분석했습니다. 두 도구는 각각 고유한 특성과 장단점을 가지고 있어, 다양한 문제 유형과 난이도에 따라 서로 다른 성능을 보였습니다.
특히 ChatGPT는 일반적인 지식 기반의 문제 생성에 강점을 보인 반면, NotebookLM은 특정 문서를 기반으로 한 심층적인 문제 생성에 더 적합한 것으로 나타났습니다. 이러한 차이는 생성된 문제의 품질과 정확성에도 영향을 미쳤습니다.
ChatGPT 개발문제 품질 검토 사례(1)
3. 한 고객이 계약등기를 이용하고자 한다. 아래 중 이 서비스의 요건에 해당하지 않는 것은?
1회 100통 이상 접수
월 5,000통 이상 접수
통상우편물이어야 함
내용증명이어야 함
정답: ④
출제근거: 제1편 5장 / p.28
계약등기는 내용증명이 아닌 등기우편을 대량 발송할 경우 체결함
검토 의견
①~③의 경우 두 종류의 계약등기 간 차이가 있는 부분임 (일반형 계약등기/맞춤형 계약등기)
AI가 이 부분을 간과하여 한 종류의 상품만 가지고 문제를 출제한 것으로 보임
ChatGPT로 생성된 문제 중 일부는 맥락 파악이 미흡한 것으로 나타났습니다. 위 사례에서 AI는 계약등기의 두 가지 유형(일반형/맞춤형)을 구분하지 못하고 단일 상품으로 간주하여 문제를 출제했습니다. 이는 AI가 전문 분야의 세부적인 구분을 이해하는 데 한계가 있음을 보여줍니다.
ChatGPT 개발문제 품질 검토 사례(2)
6. 다음은 일반 우편물 처리 흐름이다. 올바른 순서를 고르시오.
수집 → 구분 → 접수처리 → 배달 → 발착
접수처리 → 수집 → 발착 → 구분 → 배달
수집 → 접수처리 → 발착 → 구분 → 배달
구분 → 발착 → 수집 → 접수처리 → 배달
정답: ③
출제근거: 제2편 1장 우편물류 / p.24
실제 물류 흐름은 수집 → 접수 → 발착 → 분류 → 배달 순서임
검토 의견
문제은행에서 필요로 하는 평이하고 일반적인 문제의 출제에는 큰 도움이 됨
반면, 위 사례와 같이 기본적인 개념이나 절차를 묻는 평이한 문제의 경우 ChatGPT는 높은 정확도로 문제를 생성했습니다. 특히 순서나 과정을 묻는 유형의 문제는 교재 내용을 정확히 반영하여 출제되었으며, 문제은행 구축에 실질적인 도움이 되는 것으로 평가되었습니다.
이러한 결과는 AI가 특히 표준화된 절차나 일반적인 개념을 다루는 문제 생성에 효과적임을 보여주며, 기본적인 학습 평가 도구로서의 가능성을 시사합니다.
ChatGPT 개발문제 품질 검토 사례(3)
10. 고객이 EMS 이용 시 "조회, 보험, 빠른 송달"을 모두 원한다. 어떤 부가서비스를 포함해야 하는가?
보험 + 배달보장
배달통지 + 추적
보험 + 종적조회
별도 신청 불필요 (기본 포함됨)
정답: ④
출제근거: 제4장 주요 부가서비스 / p.63
EMS는 기본적으로 항공 + 등기 + 종적조회 + 보험기능 포함됨
검토 의견
EMS 보험취급은 별도 신청을 통하여 이뤄지는 바, 정답이 틀려 답이 없는 문제임
또한 답지에 나오는 단어들의 다수는 '부가서비스'라고 되어있지 않은 부분임
위 사례는 AI가 전문 지식 영역에서 정확한 정보를 제공하지 못하는 경우를 보여줍니다. ChatGPT는 EMS 보험취급이 별도 신청이 필요한 서비스임에도 불구하고, 기본 포함된 기능으로 잘못 해석했습니다. 또한 부가서비스의 정확한 명칭과 범주를 혼동하여 문제의 정확성이 크게 저하되었습니다.
이러한 오류는 AI가 전문 분야의 세부적인 규정이나 절차를 정확히 이해하는 데 한계가 있음을 시사하며, 전문가의 검토 없이 AI가 생성한 문제를 직접 활용하는 것의 위험성을 보여줍니다.
ChatGPT 개발문제 품질 검토 종합
문제의 오류가 많음!!
NotebookLM 개발문제 품질 검토 사례(1)
6. 등기취급 우편물의 배달에 대한 설명으로 옳지 않은 것은?
등기취급 우편물은 수취인이나 동거인(같은 직장 근무자 포함)에게 배달할 수 있다.
내용증명, 보험등기, 안심소포우편물은 우편물의 성격상 대리수령인에게 교부가 제한된다.
우편사서함 사용자의 우편물은 사서함에 투입 가능하며, 특별송달, 보험취급, 맞춤형 계약등기 우편물은 주소지에 배달한다.
등기우편물을 무인우편물보관함에 배달하는 경우, 수취인에게 유선 확인을 실시하는 등 위임사실을 필수적으로 확인해야 한다.
정답: ④
출제 근거: 목차 및 목차명: 제2편 우편물류 제2장 우편물 수집 및 배달
4. 등기취급 우편물의 배달 …
내용: 무인우편물보관함은 수취인이나 수취인의 동의를 받은 사람만 수령할 수 있도록 기계적·전자적으로 수령이 가능한 것에 한정하여 배달한다. 해당 내용에는 유선 확인 등 위임사실을 필수적으로 확인해야 한다는 지침은 포함되어 있지 않다. (④는 옳지 않은 설명)
검토 의견
'유선확인'과 '수취인의 동의'가 거의 같은 의미이나 AI는 맥락(Context)을 파악하지 못하였음
NotebookLM으로 생성된 문제도 일부 맥락 파악에 한계를 보였습니다. 위 사례에서 AI는 '유선 확인'과 '수취인의 동의'라는 서로 유사한 개념을 구분하지 못하고 상이한 것으로 해석했습니다. 이는 AI가 전문 용어의 맥락적 의미를 정확히 이해하는 데 어려움이 있음을 보여줍니다.
이러한 사례는 AI가 텍스트의 표면적 의미는 정확히 파악할 수 있으나, 실무적 맥락에서의 용어 간 관계나 유사성을 이해하는 데는 한계가 있음을 시사합니다.
NotebookLM 개발문제 품질 검토 사례(2)
7. 반송불능우편물의 업무처리 절차를 바르게 나열한 것은?
ㄱ. 반송불능(불필요) 일반우편물 등록 및 유가물 개봉하여 관리
ㄴ. 반송불능(불필요) 처리된 우편물의 일일 마감 처리
ㄷ. 해당 부서에서 우편물류시스템에 접속하여 '반송불능(불필요)'로 처리
ㄹ. 반송불능 도착 등록 (반송불능과 반송불필요우편물 구분)
ㄱ → ㄴ → ㄷ → ㄹ
ㄷ → ㄹ → ㄱ → ㄴ
ㄷ → ㄱ → ㄹ → ㄴ
ㄹ → ㄷ → ㄱ → ㄴ
정답: ②
출제 근거: 제2편 우편물류 제2장 우편물 수집 및 배달
내용: 반송불능(불필요)우편물 업무처리 절차는 다음과 같다.
① 해당 부서(집배실, 소포실, 특급팀 등)에서는 '반송불능(불필요)' 처리
⦙
⑥ 일일 마감 후 결재권자가 결재
검토 의견
단순하지만 제작에 시간이 소요되는 유형으로, 출제에 도움이 됨
반면, 위 사례와 같이 절차나 순서를 묻는 문제에서 NotebookLM은 뛰어난 성능을 보였습니다. 특히 단계별 프로세스를 정확히 파악하고, 이를 문제로 구성하는 능력이 돋보였습니다. 이러한 유형의 문제는 수작업으로 제작할 경우 시간이 많이 소요되지만, AI를 활용하면 효율적으로 개발할 수 있다는 장점이 있습니다.
이는 AI가 구조화된 정보와 순차적 절차를 다루는 문제 생성에 특히 효과적임을 보여주며, 이러한 영역에서 AI를 활용한 문제 개발의 효율성과 가능성을 시사합니다.
NotebookLM 개발문제 품질 검토 종합
전반적으로 잘 출제되었음
AI 개발문제 품질 검토 총평
두 AI 도구를 통해 생성된 문제들의 품질을 종합적으로 분석한 결과, 각 도구는 고유한 장단점을 보였습니다. 전반적으로 NotebookLM이 제공된 문서 기반의 문제 생성에서 더 높은 정확도를 보였으나, 두 도구 모두 특정 영역에서 한계를 드러냈습니다.
특히 전문적인 맥락 이해, 미묘한 개념 차이 구분, 실무적 적용에 있어서는 인간 전문가의 검토가 필수적임이 확인되었습니다. 그러나 기본 개념이나 절차를 다루는 문제 생성에 있어서는 두 도구 모두 효율적인 성능을 보여, AI를 활용한 문제 개발의 가능성을 시사했습니다.
ChatGPT 개발문제 품질 검토 주요 발견점
정답 정확성 문제
제시한 정답이 맞지 않는 경우는 교재 일부 내용을 근거로 작성된 것으로 추측됨
답지 구성의 단순화
답지를 너무 간단히 축약하여 제시함으로써 답을 찾을 수 없는 상황 발생
오답 매력도 부족
답지로 고를 수 있는 매력적인 오답을 만들어 내는 것에 한계가 있었음
내용 단순화 문제
교재의 내용을 너무 단순화하여 답이 없는 문제가 있음
공채가 아닌 우편직무인증 등 일반적인 문제은행 수준의 문제가 주로 생성되었음
NotebookLM 개발문제 품질 검토 주요 발견점
품질 일관성
ChatGPT에서 만든 문제와 비교해서 큰 차이를 알 수는 없으나, 전반적인 품질 일관성이 더 높았음
고난이도 문제 생성
공정·정확·신뢰성이 요구되는 공채 시험에 활용할 만한 다양한 문제가 출제되었음
일부 정확도 문제
일부 문제의 정확도가 떨어지는 부분도 있으나, 전체적인 오류 비율은 낮았음
전문가 검토 가능성
전문가의 검토로 충분히 정리할 수 있는 수준임
두 AI 도구의 직접 비교
VS
자료 이해도
NotebookLM이 주어진 교재 내용에 더 충실한 문제 생성
정확성
NotebookLM이 상대적으로 높은 정확도 제공
문제 다양성
ChatGPT가 더 다양한 유형의 문제 생성 가능
전문가 검토 필요성
두 도구 모두 최종 검토 필수적
두 AI 도구를 비교한 결과, NotebookLM은 주어진 문서 기반의 정확한 문제 생성에 강점을 보인 반면, ChatGPT는 문제 유형의 다양성 측면에서 우수했습니다. 그러나 두 도구 모두 전문적인 맥락 이해와 세부적인 정확성 측면에서는 인간 전문가의 검토가 필수적임이 확인되었습니다.
최종 결론 및 AI 활용 방안
문제풀 개발을 위한 최적의 AI 활용 방안
01
AI를 통한 초안 생성
NotebookLM과 같은 문서 특화 AI 도구를 활용하여 문제의 초안을 대량으로 생성
02
AI 기반 1차 검토
생성된 문제를 다른 AI 모델을 통해 교차 검증하여 명백한 오류 제거
03
전문가 최종 검토
전문 지식을 갖춘 인간 검토자가 AI가 놓친 맥락적 오류 수정 및 최종 품질 확인
04
피드백 기반 AI 개선
검토 과정에서 발견된 문제점을 AI 프롬프트에 반영하여 지속적으로 개선
연구 결과, AI 도구는 문제풀 개발 과정에서 효율성을 크게 향상시킬 수 있는 잠재력을 보여주었습니다. 특히 기초적인 개념과 절차를 다루는 문제 생성에서 높은 효용성을 보였으며, 인간 전문가와의 협업을 통해 고품질의 문제 개발이 가능함을 확인했습니다.
향후 AI 기술의 발전과 함께 더욱 정교한 문제 생성이 가능해질 것으로 예상되며, AI와 인간 전문가의 효과적인 협업 모델을 구축하는 것이 성공적인 문제풀 개발의 핵심이 될 것입니다.