[동물병원 개원 러쉬는 언제까지 이어질까|상편](바로가기)에서 이어집니다.
앞선 기고문 [동물병원 개원 러쉬는 언제까지 이어질까|상편]에서 facebook prophet과 시계열 모델을 활용해 동물병원 및 반려동물 인접 산업군의 증감추이를 예측해봤습니다.
시계열 모델은 동물병원의 증가세가 향후 3년간 아주 조금씩 감소하는, 안정적인 흐름을 보일 것으로 내다봤는데요. 그렇다면 이런 질문도 던져 볼 수 있습니다.
시장 경쟁이 심화되며 동물병원의 증가세가 감소한다면, 장기적인 미래의 어느 시점엔 개업 동물병원 숫자가 폐업 동물병원 숫자와 같아지며 더 이상 동물병원이 증가하지 않는 상태에 다다르게 될 겁니다.
그럼 그 때가 언제쯤 일지 수학적으로 미리 예측해 볼 순 없을까요? 그리고 그 시점에 ‘완전 포화’된 동물병원 개소수는 몇 개일까요?
로지스틱 방정식과 동물병원 생태학
로지스틱 방정식(혹은 로지스틱 곡선, logistic curve)은 원래 인구생태학에서 개체군 성장을 수학적으로 모델링하기 위해 고안된 미분방정식입니다.
개체수의 성장속도는 임계점(생태 환경이 개체들을 수용할 수 있는 최대 용량)에서 먼 초기일수록 기하급수적으로 증가하다가, 임계점에 가까이 도달하는 후기일수록 둔화되어 결국 0에 도달한다는 개념 아래 설계된 모델이죠.
비교적 명쾌하면서도 직관적인 이 모델은 인구생태학 뿐만아니라 경제학이나 역학에서도 활용되는데요.
최근에는 특히 코로나 바이러스의 확산 추이로부터 유행의 정점을 예측하는데 자주 활용되었습니다.
인구 수 대비 코로나 확진자가 많이 발생한 상위 40개국의 누적 확진자수 데이터로부터 (일반화된) 로지스틱 성장 곡선을 모델링한 아래 그림처럼 말이죠.
그리고 다음 그림은 우리나라 최초의 동물병원 데이터가 남아있는 1957년으로부터 2021년까지 연도별(X축)로 당해 연도에 정상 영업중인 동물병원의 개소수(Y축) 추이를 나타낸 것입니다.
자, 이 곡선을 보니 제가 뭘 할지 아시겠죠?
동물병원 데이터로 커브 피팅하기
커브 피팅(Curve-fitting)이란 일련의 데이터들(raw data points)이 나타내는 추세를 특정한 함수로 근사해 나타내는 것을 말합니다.
프로그래밍 언어를 활용한 수학적 모델링이지만, 복잡한 수식이나 이론적인 설명은 생략하겠습니다.
동물병원 데이터에 로지스틱 방정식을 커브피팅한 결과를 바로 보여드리면 아래와 같습니다.
여기서도 가로축은 연도, 세로축은 당해 연도에 정상 영업중인 동물병원 개소수를 나타냅니다.
파란색 점은 2021년까지의 연도별 동물병원 개소수, 빨간색 선은 실제 데이터로부터 커브피팅한 로지스틱 방정식, 주황색 점은 방정식으로부터 도출해낸 장기 추세 예측값인데요.
이 모델에 따르면 동물병원은 2030년 5,948개소, 2040년 6,389개소, 2050년 6,567개소, 2060년에 6,632개소에 이르며 6,676개소인 시점에 ‘완전 포화’ 상태가 됩니다.
서울시 동물병원, 정말 포화상태에 다다랐나
그런데 아시다시피, 동물병원 인허가 데이터는 대동물병원과 소동물병원을 구분하지 않습니다.
그러니 데이터를 지역별로 나누어도 여전히 모델에 설득력이 있는지 확인해 볼 필요가 있겠죠.
서울, 경기, 부산의 데이터를 추출해 각각 커브피팅한 결과는 아래와 같습니다.
서울시 동물병원이 포화상태라는 이야기는 2000년대 중반부터 들려왔지만, 이제는 정말로 성장의 끝이 다가온 건지도 모르겠습니다.
모델이 추론한 서울시 동물병원의 임계값은 983개소인데요, 모델은 2년 뒤인 2024년이 되면 서울시 동물병원의 숫자가 임계값의 95% 수준(933개소)에 다다를 것으로 보고 있습니다.
참고로 2022년 5월 기준 서울시에서 영업중인 동물병원은 이미 900개소를 돌파한 상황입니다.
경기도의 경우 동물병원 임계값은 1,636개소입니다. 임계값 95%인 1,554개소에 다다르는 시점은 2037년으로 나타났습니다.
실제 데이터의 성장 추세도 서울시에 비해 가파르고, 아직 시간적인 여유가 있습니다.
부산 동물병원 임계값은 315개소입니다. 임계값 95%인 300개소에 다다르는 시점은 2031년으로 나타납니다.
서울시와 경기도의 중간 정도 상황에 놓여있다고 볼 수 있습니다.
수학적 모델링, 그럴듯하지만…
하지만 어떤 고도의 수학적 모델을 쓰더라도, 현실 데이터의 장기 추세를 정확히 예측하기는 무척 어려운 일입니다.
지나간 과거의 데이터는 고정되어 있기에 수치 모델을 적용해 그럴듯한 설명을 할 수 있지만, 살아 숨쉬며 서로 상호작용하는 개체들의 움직임에는 예상하지 못한 온갖 변수들이 갑자기 튀어나오곤 하니까요.
실제 코로나 확산이 시작되던 2020년 초, 저명한 통계물리학자가 확진자 데이터와 로지스틱 방정식을 기반으로 그 해 중순경이면 코로나 확산이 정점에 다다를 것으로 예측한 바 있습니다.
하지만 얼마 지나지 않아 종교시설을 중심으로 감염이 크게 확산되고, 이후 변이 바이러스가 연이어 나타나면서 예상은 완전히 빗나가고 말았습니다.
그러니 중장기적인 시장 흐름을 판단할 때 수학적 모델링을 통한 예측을 참고는 하시되, 너무 과신하지는 않으시기를 당부드립니다.
원자료로는 [행정안전부 지방행정인허가데이터셋]을 활용했으며, 전처리 방법과 모델 튜닝의 세부사항에 따라 예측 결과 및 성능은 다르게 나타날 수 있습니다. 감사합니다.
*아이엠디티 데이터랩(iamdt d.LAB)은 벳아너스 얼라이언스의 EMR 데이터와 각종 통계 데이터를 바탕으로 동물병원 경영과 반려동물 산업에 도움이 되는 인사이트를 도출합니다(문의 hyde@iamdt.co.kr).