전남대 김형연 교수님 엣지 AI 파운데이션 모델 도전
Shared on June 25, 2026
엣지 AI라고 하는게 왜 이렇게 된다는거냐, 모티베이션이라던지, 백그라운드 좀 말씀드리고 이게 엣지 AI, 최근에는 예전에는 디텍션 이런걸 넘어서가지고 요즘에는 파운데이션 모델들이 엣지 AI로 들어오고 있는데 이런 엣지 AI 측면에서 파운데이션 모델들이 들어왔을때 우리가 마주치게 되는 챌린지들이 뭐가 있냐 이런거 말씀드리고요 그걸 바탕으로 저희가 몇가지 트레이드 오프에 대해서 퍼포먼스, 에피션스 측면에서 트레이드 오프를 분석을 하고 있는데 그 실험결과에 대해서 공유를 드리려고 합니다 그걸로부터 알 수 있는 인사이트 라던지 레슨에 대해서 말씀을 드리고 마무리를 짓는 식으로 하겠습니다 여기에 계시는 분들이 너무 잘 아실 것 같은 엣지 AI라고 하는거 간단하게 정의를 해보면 여기 될 것 같습니다 데이터가 생성되어 있는 곳에서 AI 모델이 동작하는거다 원래 우리가 많이 쓴 서버 엣지, 엣지에서 모아준 데이터셋이 서버로 가던가 서버에 연동이 되어서 저와는 AI 오프레이션이 아니라 데이터가 취득되어 있는 곳에서
에이아이가 돌아가는 것, 그런 의미를 하는 거라고 볼 수가 있겠고요. 그래서 이런 것들이 여러 가지 개념이 있는 것 같은데 On Device AI라는 것도 있고, Edge Server AI라는 것도 있고요. Edge Cloud AI라는 것도 있는데, 이 모든 것을 통틀어서 Edge AI라고 정의를 하고 있는 것 같습니다. 그래서 여기 Edge AI, 그리고 Cloud AI를 굳이 좀 비교를 하자고 하면은 저희에게 많이 써 있는 클라우드 AI 같은 경우에는 어플라이언스라든지 카메라로부터 얻은 데이터셋들을 High bandwidth에 통신을 통해서 우리 서버를 모은 다음에 거기서 트레이닝을 하고 그 모델을 배포를 하는 방법도 있을 거고요. 그 모델을 Edge단에서 콜을 해서 그 클라우드 상에서 돌린 다음에 그 결과를 다시 보내주는 형태의 클라우드 AI가 존재할 것이고, Edge AI는 우리가 Edge 단말에서 모델이 올라가 있으면 거기서 얻게 되는 데이터가 바로 인퍼런스 한 다음에 그 결과를 Edge단에서 바로 보여주는 것. 이 두 가지의 차이가 있을 거라고 생각을 합니다.
그래서 엣지 AI랑 클라우드 AI를 구조해서 비교를 하자고 하면 이 오퍼레이션 포인트에 애들이 동작하는 공간은 엣지 AI는 로컬 엣지 디바이스에서 동작을 하는 거고요. 클라우드 AI 같은 경우엔 당연히 GPU 서버에서 동작을 할 겁니다. 가장 큰 특징 중의 하나가 클라우드 AI라고 하면 데이터 트랜스퍼가 당연히 필요한 것이고 엣지 AI는 우리 단말에서 돌아가는 거니까 데이터 트랜스퍼가 필요가 없는 거겠죠. 그래서 엣지 AI의 중요한 특징 중의 하나가 데이터 트랜스퍼가 발생하지 않은 거니까 예를 들면 우리가 로컬 현장에서 취득되는 데이터가 프라이버시 문제가 있다고 하면은 사실 클라우드로 보내는 것보다 엣지 AI에서 바로바로 소화를 해주는 게 당연히 장점이 될 것 같습니다.
그리고 또 파워 컨스트레인츠, 클라우드 AI 같은 경우에는 파워를 얼마 쓰던지라는 물론 저전력을 넣어가면 좋겠지만 엣지 AI 보다는 컨스트레인이 덜하다고 볼 수가 있을 것 같고요. 클라우드 AI 같은 경우에는 당연히 큰 모델이 돌아가는 것은 당연할 것이고 엣지 AI는 상대적으로 경량 모델이 선호될 거다라는 게 큰 두 가지를 굳이 비교하자면 이렇게 테이블로 정리할 수 있겠다라고 생각이 되고요. 결국에는 엣지 AI라는 게 우리가 현 시점에서 필요한 이유는 데이터가 생성된 곳에서 인퍼런스가 리얼타임으로 돌아가고 그다음에 개인정보 보호, 프라이버시 프리사이빙이 가능하고 그다음에 이의 결과가 또 Reliable하고 코스트 에피션시가 보장되는 어떤 시스템이 필요하기 때문에 엣지 AI가 최근에 최근에 아니라 아주 좀 된 것 같습니다. 굉장히 중요한 토픽이라고 보고 있고요.
그래서 예전에는 엣지 AI가 들어가는 것들이 잘 아시는 욜로모델, 디텍션 레벨에 센싱하는 거에요. 어떤 이미지가 촬영이 되고 나면 거기 안에 어떤 데이터들이 존재하냐, 그런 센싱 레벨이었는데 제가 봤을 때는 이런 파운데이션 모델이라고 하는 것 자체가 이제 엣지로 들어오고 있다고 생각을 합니다. 그래서 파운데이션 모델도 너무 잘 아실 것 같은데 저희가 엄청나게 대용량의 데이터로 학습돼 있는 그 데이터는 텍스트가 될 수도 있고요. 이미지가 될 수도 있을 거고 스피치 시그널이 될 수도 있고 요즘에는 1차원 센싱 데이터가 다 들어오기도 합니다. 그래서 그런 멀티모달 데이터들을 가지고 일반화는 범용의 하나의 모델을 만들어 놓은 거를 파운데이션 모델이라고 하고 있고 그 파운데이션 모델을 바탕으로 우리가 원하는 다운스트림 테스트에 적용을 시키는 것 그러니까 파운데이션 모델의 패러다임은 범용 모델을 만들어 놓고 우리가 원하는 모델의 미니멀한 데이터 가지고 어댑테이션 하는 게 파운데이션 모델의 가장 큰 장점이라고 볼 수 있을 것 같습니다.
그런 파운데이션 모델들이 지금 엣지에 들어오고 있는데 그 모델들을 크게 보면 세 가지로 나눠볼 수 있을 것 같습니다. 굉장히 큰 비주얼 데이터, 시각, 이미지, 비디오들을 포함하는 굉장히 큰 비주얼 데이터로 학습이 되어 있는 것들을 우리는 비전 파운데이션 모델이라고 하고 있고요. 대표적인 것들이 클립이라고 하는 텍스트랑 이미지가 얼라인되어 있는 모델이 대표적인 모델이라고 할 수가 있겠습니다. 비주얼 데이터로 학습돼 있는 파운데이션 모델이 당연히 있을 거고 그렇다면 텍스트를 가지고 학습돼 있는 LLM이 있을 겁니다. 그 LLM은 여기 많이 알고 계시겠지만 라마라든지 QN, 파이라는 모델들이 있고요. 그다음에 이것들은 넘어져서 최근에는 다 멀티모닭이 패러다임이 시트되고 있다고 볼 수가 있겠고요. 아직 멀티모델 모델은 이미지에 끝만 아니라 텍스트, 스피치, 얘네들 다 같이 한꺼번에 학습하는 모델이라고 볼 수가 있겠습니다. 그래서 이런 결국에는 LLM의 형태는
비전 인코더가 들어가 있고요. 라즈 랭기지 모델이 들어가 있고 얘들을 다 인티브레이션 해놓은게 결국에는 LMM이라고 볼 수 있지 않을까 쉽게 말씀드리면 그렇게 정의를 할 수가 있을 것 같고 그렇다 보니까 QN이라고 하는 랭기지 모델로부터 발전된 비전 랭기지 모델이 QN 2.5에 비전 랭기지 QN 3도 있을 거고요. 라바 모델 등등이 계속 등장하고 있습니다. 그래서 이게 아까 말씀드린 이유는 파운데이션 모델이 그냥 비전 그 다음에 랭기지 멀티모델로 가고 있고 그 기능 자체도 계속 발전이 되고 있다고 생각을 합니다. 저희가 예전에는 저도 예전에 디텍터 같은 100채널 연동해서 테스트를 하고 그랬었는데 예전에는 이 퍼셉션 레벨 오브젝트를 찾고 오브젝트를 분할하고 요 정도만 하더라도 되게 큰 기능 중에 하나 있는데 요즘에는 그 씬에 어떤 내용들이 발생하고 있나 여기에 폭력적인 해기가 발생하고 있나 요런 것들을 본다라든지 이런 고 하이레벨의 언더스탠딩을 넘어서 최근에는 그걸로부터 추론을 하기 시작했고 그거로부터 추론을 하기 시작했고
사실 출원을 하게 된 계기도 LLM 때문에 출원이 가능해진 거고요. 그걸 더 나가서 저희가 지금 요즘에 관심을 많이 받고 있는 게 피지컬의 에이에게 결국에는 비전을 바탕으로 리즈닝을 하고 리즈닝된 결과로부터 어떤 실생에 존재하는 액추에이터가 액션을 하게 이르기까지 퍼셉션에서 리즈닝 액션까지 흘러가고 있다. 그래서 이런 파운데이션 모델이 이렇게 발전되고 있는 거고요. 그래서 이것에 따라서 퍼셉션 리즈닝 액션으로 가고 있는데 예전에는 저희가 디텍터 욜로 모델 지금 나와 있는 게 욜로 V8의 나노 모델 같은 경우에는 파라미터 개수가 한 300만 개 정도가 됩니다. 그런데 여기에서 계속 리즈닝을 하기 위해서 LLM들이 나오고 있는데 이 모델들은 작게는 3밀리언 물론 0.5밀리언 모델도 있는 것 같긴 합니다. 7밀리언에서 많게는 32밀리언까지 나오고 있고요. 그리고 액션 모델 같은 경우에는 R&T 로봇 트랜스포
같은 경우에는 51년 정도 됐던 것 같습니다. 그래서 이렇게 계속 모델의 기능도 발전하면서 이 파운데이션 모델의 파라미터도 계속 스케일링이 돼가고 있다. 그렇기 때문에 이런 애들이 엣지에 들어오고 있는데 우리가 좀 이런 경량 엣지 모델에서 고려하는 것들이 어떤 것들이 있을까에 대해서 고민이 필요하다는 생각이고요. 그래서 다시 한번 정리를 하게 되면 이 파운데이션 모델이 수십억개의 파라미터를 갖고 있고 당연히 메모리 요구량이 큰 거고요. 그다음에 계산량도 굉장히 높을 거고요. 반면에 이런 애들이 엣지 디바이스로 들어오기 때문에 메모리가 한정이 돼 있고 전력이 한정돼 있고요. 그럼에도 불구하고 실시간 요구사항은 계속 존재하기 때문에 이런 파운데이션 모델을 엣지 디바이스에 넣는 입장에서 우리는 어떤 것들을 고려해야 될지 좀 간단하게 실험적인 내용을 말씀드리려고 하고요. 다시 한번 정리를 해보자면 엣지 AI를 어렵게 만드는 네 가지 요소로 제가 생각하는 것은 메모리, 당연히 여기 계신 분들이 많이 생각하실 것 같습니다.
모델 자체의 크기도 있고요. 그 다음에 우리가 LLM이라든지 LLM 같은 경우에는 결국에는 오토 리그레시브한 제너레이션을 하기 때문에 이전 기업들을 계속 저장을 해야 됩니다. 그 말은 KV 캐시, KVM 캐시들이 계속 우리가 캐시를 해야 되기 때문에 메모리가 계속 크게 소비되어야 되는 거고 우리가 맞닥뜨리는 데이터도 굉장히 크다. 그러니까 메모리가 가장 중요한 거고 실시간 장애는 있을 거고요. 하드웨어 설계하는 입장에서는 파워가 중요한 거고 사실 이 세 가지 뿐만 아니라 중요한 게 모델을 저희가 그냥 작게 넣는 거는 할 수는 있는데 그거 샌다라서 성능이 내려가고요. 그 다음에 LLM에 성능이 내려간다는 말은 거짓말을 칠 가능성이 더 늘어나게 되는 거고 거짓말력 관련된 게 할루시네이션
이 될 거라고 생각하고요. 그래서 4가지 측면을 고려해야 되겠다 정도로 저는 생각을 하고 있습니다. 그래서 이걸 바탕으로 실제로 퍼포먼스랑 에피션시에 관해 어떤 트레이도 후가 있나 이거를 저희 실험실 레벨에서 테스트를 해보고 있고요. 그래서 여기에 지금 대상으로 되는 디바이스는 사실 이런 디바이스 자체도 저희 연구실 레벨에서 봤을 때는 비싼 것이기 때문에 이게 과연 엣지인가 그런 생각도 들긴 하는데요. 엔비디아 제슨 올인 엔엑스, 에이제엑스 올인 이 두 개 모델 그리고 제슨 나노모델도 저희가 테스트를 하고 있고 그리고 이제 NPU 모델도 나름대로 테스트를 하고 있는데 오늘은 두 가지 정보에 대해서 말씀을 드리려고 하고요. 저희가 실험 결과 좀 말씀드릴 내용은 아까 말씀드린 파운데이션 모델이 비전 파운데이션 라즈 랭귀지 모델, 라즈 멀티모델 모델이 있는데 그 중에 가장 큰 오버이드를 갖는 라즈 멀티모델 모델에 대해서만 설명을 할 예정입니다. Q& 인턴, 라바, 파이모델, 요새 내가 쓰는 거 말씀드릴 예정이고 라바나 파이모델,
그래서 이 차이가 그나마 적은 모델입니다. 그래서 여기 데이터셋은 매치 밖의 데이터셋으로 멀티모덜 데이터셋을 활용하고 있고요. 그래서 여기에 보당방에 Perception Resinning 테스트가 있습니다. Perception는 단순하게 뭐 다 인지하는 것이고 리즈닝은 추론을 하는 겁니다. 그래서 그걸 봤을 때 성능은 당연히 QN이라든지 인턴 모델이 좋다. 뭐 이 정도는 좀 말씀드릴 수 있을까요? 시간이 부족해서 빠르게 넘어가겠습니다. 그에 반해서 Resource Requirement를 봤을 때 뭐 이런 식으로 파라미터 개수, 그 다음에 피트 메모리, 레이턴스 뭐 이런 거를 저희가 정리를 해봤습니다. 그래서 All in edX, 그 다음에 AX All in edX 정리를 해봤는데 그래서 이걸 바탕으로 좀 마지막에 정리를 해야 될 거 같아요. 시간이 없어서. 그래서 저희가 이제 발견한 거는 발견이라고 하기 거창하게 말씀드리기는 좀 그렇지만 메모리가 되게 중요한 바틀렉이었다. 좀 더 말씀을 드릴 수가 있고요. 그 메모리가 LMM 자체 파라미터 말고도 KB 캐싱이라든지 오퍼레이션 하는 동작에 발생하면 메모리, 런타임 메모리가 있더라. 그 다음에 두 번째는 비주얼 프로세싱이 굉장히 큰 오버헤드를 갖는다는 거. 그 다음에 작은
전 모델이라고 해서 항상 빠른 건 아니었다. 그리고 이제 소프트웨어 옵티미데이션 이야기를 하긴 하진 않았는데 텐서아트 같은 것들이 좀 필요하다. 이런 것도 말씀드리고 싶었고요. 그래서 우리가 정리를 좀 빨리 말씀드리고 시간을 좀 더 못 드렸는데 결국에는 파운데이션 모델이라는 게 컨셉션에서 액션까지 발전하고 있고 제일 중요한 게 메모리, 비주얼 토큰 프로세싱이 가장 중요하다. 그리고 모델 사이즈가 작다는 게 꼭 우리가 디플로이먼트를 잘할 수 있다고 보장하는 것은 아니다. 이 정도 말씀드릴 수 있을 것 같고요. 마지막으로 저희가 진행하는 방향은 비주얼 토큰 프로세싱을 좀 효율적으로 처리해보겠다. 그다음에 엣지랑 클라우드, 그리고 엣지한 이기종의 디바이스 간의 컬래버레이션 하는 것 이런 것들이 좀 필요하겠다 정도로 말씀드리고 마무리시켰겠습니다. 감사합니다.
제가 너무...