해외사례 집중 탐구…시스템 통합과 GPU 등 연산자원·서버 증설 강조
[토토 사이트 커뮤니티 안희민 기자] 한국지역정보개발원이 멀티모달 생성형AI의 지역확산을 위해 시스템 통합과 GPU 등 연산자원과 서버 증설이 필요하다고 강조했다.
지역정보개발원 디지털전략기획부 정대훈 선임은 최근 ‘생성형 AI 서비스 최신 동향 : 멀티모달 서비스를 중심으로’라는 제목의 보고서를 통해 기존 텍스트 외 동영상, 소리, 그림 등 다양한 결과물을 내놓는 멀티모달 생성형AI 도입을 위해 관련 설비 확충이 필요하다고 밝혔다. 이미 연구기관과 지자체를 중심으로 국가가 GPU를 확보해 빌려달라는 요청도 있다.
지역정보개발원은 다른 나라의 사례를 탐구해 멀티모달 생성형AI가 일선 행정에서 유용하게 쓰이고 있다고 설명했다.
일본 사이타마현은 작년 10월 AI 음성인식툴인 아미보이스를 탑재한 ‘스크라이브 어시스턴스앱’을 전 부서에 배포했다. 이 앱은 GPT-4o를 활용한 VoXT 원 플랫폼에서 작동한다. 회의록을 자동녹취해 화자를 식별하고 자막을 생성한다.
일본 군마현은 작년 8월 GPT-4o를 포함한 대규모 언어모델을 활용한 플랫폼 ‘크루’를 도입했다.
이 플랫폼은 텍스트 작성에 국한되지 않고 시의 규정과 내부문서를 학습해 다양한 문의에 답한다. 다국어 번역, 엑셀 함수 생성 등 실무 작업을 처리하거나 문서에 포함된 이미지나 플로우차트를 분석해 답변을 생성한다. 100가지 이상의 프롬프트 템플릿을 제공하고 민감한 정보를 자동으로 감지하며 숨김 처리하기도 한다.
일본 이바라키현청도 지난해 8월 Vuevo를 도입했다. Vuevo 플랫폼은 원형 무선 마이크, 디비아스, 앱으로 구성된다.
화자의 위치와 발언 내용을 디바이스에 표시해 청각 장애인 직원이 디바이스에 표시된 정보로부터 발언 방향을 식별하고 발언 내용과 발화자를 파악할 수 있게 설계했다.
청각 자료를 실시간으로 시각화할 뿐만 아니라 자동으로 회의 내용을 요약하고 전체 요약문과 5분 단위 요약문을 작성한다. 23개 언어 번역을 지원한다.
미국 오클라호마시티 경찰서는 작년 5월 생성형 AI기반 소프트웨어인 드래프트원을 시연했다.
드래프트원은 녹음한 소리를 녹취록으로 작성한 후 자동으로 보고서로 제작하는 소프트웨어다. 경찰이 1시간 동안 바디캠으로 녹음한 오디오를 바탕으로 보고서를 제작하는데 8초 걸렸다. 경찰이 직접 작성한 보고서보다 정확하다는 평가를 받았다.
경찰차 내부의 녹음 장치나 경찰 개인에게 부착된 바디캠 등 다양한 기기에서 생성된 녹화물을 동시에 하나로 병합할 수 있다.
지역정보개발원은 국내에서도 멀티모달 데이터를 수용하기 위한 시스템 통합과 GPU 등 연산자원과 서버 증설이 필요하다고 강조했다. 아울러 안전성과 신뢰성을 확보하고자 개인정보와 데이터 보안 조치를 수반해야 한다고 덧붙였다.
정 선임은 “공공 영역에서 멀티모달 생성형 AI를 활용한 사례가 축적된다면 다양한 비교 분석이 가능하다"며 “추후 다각적인 분석을 통해 국내 지자체의 멀티모달 생성형AI 서비스 활용에 있어 유익한 정보를 창출할 것”이라고 말했다.