[인터뷰] ‘ChatGPT를 동물진료에 더 잘 활용하려면’ 건국대 고진형 수의사

수의영상의학 전공하며 인공지능 연구도


32
글자크기 설정
최대 작게
작게
보통
크게
최대 크게

지난달 열린 한국임상수의학회 춘계학술대회에서는 특이한 발표가 눈길을 끌었습니다. 임상 증례 관련 연구가 대부분인 학회 속에서 인공지능(AI)의 한 종류인 거대언어모델(LLM)을 수의학적으로 더 잘 활용하기 위한 프롬프트 엔지니어링(Prompt Engineering) 기술을 소개한 연구입니다.

그 주인공은 건국대 고진형 수의사인데요, 학창시절 개발공부를 병행하며 여러 프로그래밍 대회에 참가해 수상한 고진형 수의사는 2021년 교육부가 주관하는 대한민국 인재상을 수상하기도 했습니다.

전북대 수의대를 졸업한 후 건국대 수의영상의학 대학원에 진학한 고진형 수의사는 석사과정 중에서도 개발의 끈을 놓지 않았습니다.

선배 대학원생의 라디오믹스(Radiomics) 영상분석 연구에 개발자로 참여하는 한편 영상주치의별 환자내원 알림앱이나 통계분석을 위한 프로그램을 직접 만들고 병원에 배포하기도 했는데요,

지난해에는 생성형 AI 해커톤으로 열린 Gen AI 해커톤에 참여해 대상을 차지했고, 이달 15일에는 동그라미재단이 주최하는 TEU MED 4기에 참여해 우수상을 수상했습니다.

석사학위 연구도 특기를 살려 인공지능을 주제로 잡았는데요, ChatGPT로 잘 알려진 거대언어모델(LLM)을 수의학적으로 활용하기 위한 프롬프트 엔지니어링 연구입니다.

5월 한국임상수의학회 춘계학술대회에서 발표하는 고진형 수의사

Q. 학위 과정 중에 개발 공부도 계속하기가 쉽지 않았을 것 같은데

낮에는 영상 진료, 저녁엔 연구와 실험을 했고 작년엔 치프(팀장)를 맡으며 평범한 임상대학원 생활을 보냈습니다. 그러면서 개인적으로 필요한 프로그램을 만들기도 하고, 개발역량을 살려 연구에 참여하기도 했어요.

석사과정 1년차에는, 같은 영상의학과 선배(현 사람앤동물메디컬센터 이경수 영상과장)의 라디오믹스 분석 연구에 개발자로서 참여했습니다. 1년차 배움과 병행하기 힘들긴 했지만 선배와 친해지며 많이 배울 수 있었던 좋은 경험이었습니다.

 

Q. 라디오믹스라는 용어부터 생소하네요

라디오믹스는 영상을 수치화할 수 있는 데이터로 분석하는 기법입니다. 컴퓨터를 이용한 일종의 질감분석이라고 볼 수 있죠.

예를 들어 이제껏 CT 영상을 볼 때, 전통적으로는 형태가 매끄러운지(fine), 거친지(hetero)를 판단하는 heterogenecity나 density, enhancement pattern, vascularity 등 몇 개 안되는 특성(feature)을 사람의 눈으로 구별해왔습니다. 그러나 이걸 라디오믹스로 분석한다면 가령 200여개 이상의 특성을 사용해 분석할 수 있죠.

이를 종양의 영상진단에도 활용할 수 있습니다. 영상에 덩어리가 있는 것이야 사람의 눈으로도 쉽게 구별할 수 있지만, 어떤 종류의 종양인지는 영상만으론 알기 어려운 경우가 많습니다. 조직검사를 해봐야 알겠죠.

그런데 라디오믹스 분석을 활용해, 인공지능이 사람의 눈으로는 구별하기 어려운 특성을 영상으로부터 추출해내고 이를 구별할 수 있다면 어떨까요? 비침습적으로도 종양을 구별할 수 있게 되는 겁니다.

이미 사람의료에서는 라디오믹스에 대한 연구가 많이 쌓여 있습니다. 수의 쪽에서도 꽤 진행되고 있는데요, 제가 참여했던 선배의 연구는 개의 원발성 부신종양의 CT영상을 라디오믹스로 분석했습니다.

(왼쪽부터) Gen AI 해커톤 우승을 차지한 SickGPT팀의 TRUSEC 류의석 개발자, 분당서울대병원 의료인공지능센터 최수경 연구원, 김명주 선임연구원, 고진형 수의사 (사진 : 프라이머)

Q. 석사학위 연구는 ChatGPT를 활용하셨다고 하니 그나마 친숙한 것 같습니다

프롬프트 엔지니어링은 ChatGPT가 대두된 이후 등장한 최신 영역입니다. 생성형 AI는 같은 내용이라도 어떻게 질문하느냐에 따라, 어떤 프롬프트를 입력하느냐에 따라 결과물의 품질이 달라지는 특성이 있거든요.

‘AI의 성능을 높이기 위해 프롬프트를 어떻게 만들지에 대한 공학적 접근’을 프롬프트 엔지니어링이라고 할 수 있습니다.

가령 ‘차근 차근 생각하라’거나 ‘틀리게 대답하면 혼을 내겠다’는 식의 프롬프트를 추가하는 것만으로도 성능이 올라간다는 연구 보고가 있어요. 그게 왜 그런지는 개발자들도 모르는, 거대언어모델만의 독특한 특징(emergent ability)이지만 어쨌든 그렇습니다.

인간이 만든 창조물인 거대언어모델의 특징을 인간이 다시 연구하는 것이 요즘 인공지능 연구의 경향인데요, 그 중 하나가 프롬프트 엔지니어링이죠.

Q. 이번 연구를 간략히 소개해주세요

수의학에서도 거대언어모델 관련 연구가 진행되고 있지만, 프롬프트 엔지니어링을 활용한 정량적 연구는 찾기 어렵습니다.

이번 연구에서 저는 ChatGPT 3.5-turbo-1025 모델이 미국수의사 국가시험(NAVLE) 대비용 연습문제 25개 문항을 풀게 하고, 프롬프트 엔지니어링을 사용했을 때 정답률이 어떻게 변화하는지를 살폈습니다.

ChatGPT를 써보신 분이라면 알고 계실텐데요, ChatGPT와 같은 거대언어모델은 확률론적인 모델이라 같은 질문을 해도 매번 나오는 답변에 편차가 생깁니다. 때문에 우연에 의한 효과를 방지하기 위해 같은 질문을 30번씩 반복 실험했습니다.

이걸 일일이 타이핑하려면 엄청난 시간이 소요되니, 오픈AI가 제공하는 API(개발자용 도구)를 활용해 자동으로 질문을 반복해주는 프로그램을 자체개발해 사용했죠.

 

Q. 프롬프트 엔지니어링 기법을 적용하니 정말 정답률이 올라가던가요?

기존에 성능 향상 효과가 있다고 보고된 프롬프트 엔지니어링 기법 18종을 우선 적용해봤는데요, 이중 유의적으로 정답률을 상승시킨 기법 6종을 확인했습니다. 최대 6%에서 17%까지 상승했습니다.

이들을 하나의 프롬프트로 통합하기 위해 2차 및 3차 실험도 진행했습니다. 프롬프트를 통합하는 방법에 대한 연구도 여럿인데, 그 중에 가장 효과가 좋은 것을 선별했죠.

그렇게 묶은 결과물을 ‘KUVM prompt engineering principle’로 명명했습니다.

수의학(veterinary medicine) 및 그와 관련된 용어를 자주 명시하고, 긍정적인 지시어를 사용하고, LLM으로 하여금 ‘수의사’라는 역할을 부여하면서 듣는 사람도 수의사 동료라고 지정하는 등의 원칙입니다.

프롬프트 엔지니어링을 적용하기 전의 정답률이 57%였던데 반해, KUVM 원칙을 적용하면 정답률이 69%까지 상승했습니다.

평소 임상에서 궁금한 점을 거대언어모델에 물어본다고 할 때 이 원칙을 활용하면, 보다 유용한 결과를 얻을 가능성이 높아질 것으로 기대할 수 있습니다.

 

Q. 실제로 진료하시면서 ChatGPT를 쓰시나요?

네, 사용합니다. 수의사라 하더라도 모든 지식을 다 알고 있을 수 없으니, 기존에도 막히는 부분이 있으면 책이든 구글이든 PubMed든 찾아보게 되는데, ChatGPT를 활용하면 핵심적인 단서를 얻을 수 있습니다. ChatGPT3.5만해도 학습데이터의 용량이 45TB이거든요. 이 안엔 의학논문도 상당수 포함되어 있고요.

물론 ChatGPT의 답변 그대로를 절대 믿지 않죠. AI의 답변 중 일부 내용을 참고하는 것이고, 이를 바탕으로 PubMed에서 논문 근거를 찾습니다.

그래도 일반적인 검색보다는 훨씬 빠르게 해답에 도달할 수 있어요. 특히 환자의 양상이 흔하지 않을 때 유용합니다.

사실 대학병원이라 한 환자에 쏟을 수 있는 시간이 일선 동물병원보다 많다 보니 가능한 일인 것 같기도 해요.

제 주변에도 진료에 ChatGPT를 활용하는 분들이 꽤 있는 것으로 알고 있어요. 지난해 미국에서는 사람 의사의 40% 이상이 ChatGPT를 활용한다는 보고도 나왔습니다.

 

Q. ChatGPT에 어떻게 물어보는지 예시를 들어주신다면

가령 비장종양과 유선종양, 두경부 림프절 종대가 확인된 환자의 감별진단목록을 물어본다고 하면 다음과 같습니다.

““

# Signalement

– 14Y/IF/Maltese

# Blood work

– RBC: … / LYM: …

““

What are the possible ddx for the patient with splenic tumor, MGT, Lt. cervical lymphadenomegaly at the same time? Patient information is delimited by ““.

Answer as a veterinary radiologist, explaining to a fellow veterinarian.

저도 사실 환자정보나 실험실 검사 데이터까지 붙여 넣는 경우는 별로 없고, 대부분 간단히 물어보는 편입니다.

고진형 수의사는 최근 동그라미재단이 주최한 TEU MED 4기 프로그램에 XR을 통한 우주 근감소 진단 솔루션 개발팀으로 참여해 우수상을 수상했다.
(왼쪽부터) 원주세브란스 정형외과 이정우 교수, 고진형 수의사, 이화의대 김지윤 학생, 삼성서울병원 김나영 간호사, 라이프스텝 윤재호 대표, 시상자 서울의대 서정욱 명예교수 (사진제공 TIDE Envision University)

Q. 다른 수의사 분들에 비해 인공지능을 잘 아실텐데, 앞으로 수의학 분야에서 인공지능이 어떻게 활용될까요?

지난해 해커톤에 함께 참여했던 김세중 교수님(분당서울대병원 의료인공지능센터 센터장, 서울의대 신장내과)께 들었던 말씀이 기억에 남습니다.

지금도 의학의 연구속도가 너무 빨라서 한 사람의 의사가 자기 전공에 대한 주요 논문만 따라잡는 것도 벅찬데, 앞으로는 이런 현상이 더 심해질 전망이라는 거죠. 그래서 쏟아져 나오는 논문들을 거대언어모델에 학습시키고, 의사는 그 모델에 물어본다면, 그 간극을 좁히는데 도움이 되지 않을까 한다는 겁니다.

서울대 의대는 이미 본과4학년 전공필수과목으로 의사로서 ChatGPT를 다루는 방법에 대해 배우고 있다고 해요. 연구를 하면서 저도 그러한 시각에 더 동의하게 됐습니다.

저도 수의영상의학을 전공하고 있다 보니 수의영상의학이나 내과학의 주요 논문은 빠짐없이 읽으려고 하는데 쉽지 않거든요. 사실 더 좋은 영상의가 되려면 수의외과나 사람 영상의학의 트렌드도 공부해야 할텐데 참 어렵습니다.

이미 의학분야에 특화된 거대언어모델에 대한 연구도 진행 중입니다. 대표적으로 구글에서 개발중인 Med-PaLM2가 있습니다. 다량의 의학논문을 학습시켰고, 의학분야에서만큼은 지금까지의 그 어떤 거대언어모델보다도 뛰어나다고 알려져 있습니다.

그런 의미에서 일선 의료계 종사자들도 거대언어모델을 활용하는 능력이 더 중요해질 것 같습니다.

 

Q. 인공지능이라고 하면 막연히 직업을 대체해버릴 것이란 불안감도 있습니다

언젠가는 모든 직업이 다 인공지능으로 대체될 수도 있겠지만, 의사나 수의사는 다른 분야에 비해 대체되기 어려울 거라고 생각합니다.

이미 의사나 수의사를 대체하여 인공지능이 환자를 진단하려는 시도 자체가 인공지능 연구의 주류에서 벗어났거든요. 지금 기술로는 그러한 대체가 불가능에 가깝다는 것이 연구자들의 인식입니다. 대신 ‘어떻게 하면 잘 도와줄 것인가’에 초점을 맞추고 있죠.

건국대 부속동물병원 영상의학과 의료진

Q. 앞으로의 계획도 궁금합니다

2년 전에 해커톤 수상 소식을 전하며 ‘임상수의사가 꿈이지만, 프로그래밍을 통해 수의학 발전에 기여하고 싶다’고 말씀드렸는데 실제로 그 성과를 낸 것 같아서 기쁩니다.

일단은 임상수의사로 일하며 대학원에서 배운 전공을 보다 발전시키고 싶어요. 추후에는 개발 쪽으로도 활동할 생각도 있습니다.

 

Q. 인터뷰를 마치며 전하고 싶은 말씀이 있다면

대학원 입학부터 영상의학과 수련과정을 마치기까지, 많은 교수님들과 선후배 선생님들의 도움 덕분에 여기까지 올 수 있었습니다.

부족했던 1년차 시절부터 아낌없이 영상의학을 가르쳐주신 김재환 교수님께 감사의 말씀을 드리고 싶습니다. 특히, 진료와 더불어 생소한 의공학 연구에 도전할 수 있었던 것은 영상의학 지도를 넘어 연구의 가치를 알아봐주시고 끊임없이 지도해주신 엄기동 교수님 덕분입니다. 이 자리를 통해 깊은 감사드립니다.

데일리벳 관리자
Loading...
파일 업로드 중 ...