한림대학교동탄성심병원 연구팀이 무릎 인공관절수술과 관련된 AI 챗봇 5종의 성능을 비교·분석한 연구 결과를 발표했다. 연구팀은 환자들이 수술 전후에 자주 묻는 질문 43개를 선정하여, 각 질문을 5가지 LLM 기반 AI 챗봇에 동일하게 제시해 답변을 받았다.
연구 결과에 따르면, GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 평균 4.8점 이상의 높은 정확도를 보였다. 반면, Gemini Advanced는 전체 평균 정확도 4.07점과 관련성 83.7%로 다른 챗봇들보다 낮은 성적을 기록했다.
이번 연구는 정형외과·스포츠의학 분야의 SCIE 저널에 게재되었으며, AI 챗봇들이 무릎 인공관절수술과 관련된 의학 정보를 상당히 정확하게 제공할 수 있음을 확인했다는 송시영 교수의 설명이 있었다.
또한, 국내 생성형 AI 시장에서 챗GPT가 이용률 1위인 반면, 제미나이는 추천 의향 1위로 평가받고 있다. 챗GPT의 월간 활성 이용률(MAU)은 46%인 반면, 제미나이는 36%로 나타났다.
제미나이는 ‘답변 정확성’과 ‘신뢰도’에서 높은 평가를 받았으며, 구글은 제미니를 자사 생태계 내 여러 제품에 통합하고 있다. 구글 지도에 ‘지도에 물어보기’라는 새로운 AI 기능을 추가할 예정이며, AI를 크롬, 워크스페이스 등 다양한 서비스에 통합하고 있다.
송 교수는 “AI 챗봇의 응답은 2024년 8월 시점으로 평가됐으며, AI 모델의 빠른 발전 속도를 고려할 때 이후 버전에서는 성능 차이가 생길 수 있다”고 덧붙였다.
국내 AI 서비스들은 이용률이 한 자릿수 수준에 머물렀으나, 제미나이는 상대적으로 높은 추천 의향 점수인 78점을 기록했다. 이는 사용자들이 제미나이에 대한 신뢰를 높이고 있음을 보여준다.
연구 결과와 함께 제미나이의 발전 가능성에 대한 기대감이 커지고 있다. AI 기술의 발전이 의료 분야에 미치는 영향은 앞으로 더욱 중요해질 것으로 예상된다.