퓨리오사 AI 레니게이드 NPU 효율성

Shared on June 25, 2026

05:38:04

안녕하십니까 퓨리오사 AI 기업 소개를 맡게 된 퓨리오사 AI 테크 세일즈 매니저 이지수입니다 저희 회사 같은 경우에는 많이들 아시겠고

05:38:18

저희 회사의 가장 큰 목표를 한 줄로 설명드리자면 데이터 센터 향 MPU 중에서 최고의 MPU를 만들겠다 합니다. 저희 회사는 2017년도에 알파고와 이세돌의 대국 후에 설립되었고 2022년도에는 당시에 가장 유행하던 알고리즘 중 하나인 CNN 알고리즘 가속화에 최적화된 워보이라는 1세대 MPU를 생산했었습니다. 그리고 이제 그 과정에서 저희 2세대 MPU의 레니게이드를 함께 설계하다가 올해 1월부터 레니게이드 양산에 들어갔고 올해 내로 아마 한 2만장 정도 양산될 것으로 보고 있습니다.

05:39:00

그래서 NPU가 왜 이렇게 중요한지 먼저 간략하게 설명드리고자 합니다. 2024년도에도 많이들 사용하셨겠지만 채찍PT나 제미나이나 클로드 같은 LLM 모델들을 많이 사용하시면서 약 65조개의 토큰이 생성되었다는 조사 결과가 있습니다. 하지만 올해 들어서 특히 오픈클로나 클로드코드 같은 에이선틱 AI들이 많이 대두되면서 하나의 질문을 던지면 그 안에서 계속해서 질문을 연체적으로 이어가면서 토큰을 엄청나게 많이 생성하는 현상이 발생하고 있습니다. 그래서 내년에는 65조개의 토큰보다 약 20배 정도 증가한 1300조개의 토큰이 생성될 것이라는 예측도 존재하고 있습니다.

05:39:41

이러한 토큰 생성이 처리되는 곳이 바로 데이터 센터입니다. 그래서 이러한 폭발적인 토큰 수요를 처리할 수 있도록 하기 위해서 약 100기가와트 규모 이상의 데이터 센터들이 글로벌 이야기 2030년까지 설립될 것으로 보고 있는데 이 중에서 약 70%의 인프라가 학습이 아닌 추론에 이용될 것으로 보이고 있습니다. 그리고 이제 저희 퓨리오사 AI의 NPU가 집중하고 있는 부분이 바로 이 추론입니다. 이게 저희 2세대 칩인 매니게이드의 간략한 스펙인데요. 512TB 플롭스, 48GB의 메모리 개파시티, 256MB의 SLM, 1.5TB의 메모리 벤즈위스 이런 자잘한 스펙들이 있는데 가장 중요한 것은 바로 180W의 TDP입니다. 본 디바이스를 생각하면 조금 많다고 생각하실 수 있지만 대부분의 서버형 GPU들을 보면 못해도 한 600W의 소비 전력을 지니고 있기 때문에 - 감사합니다.

05:40:41

그런 서버형 GPU들에 비하면 거의 1/3에서 1/4 정도밖에 안 되는 소비 전력이라고 보실 수 있습니다. 그래서 상당히 적은 전력 안의 성능을 최대한 몰아넣고 있다고 보실 수 있습니다. 그리고 저희는 이렇게 카드를 공급할 뿐만 아니라 카드를 넣어서 고객사 측에서 바로 이 서버만 구매하면 가장 최적화된 성능을 보실 수 있도록 슈퍼마이크로사와 협력해서 어플라이언스 서버도 제작해서 판매하고 있습니다. 이 과정에서 바이오스라든지 기타 등 최대한 저희 칩의 성능을 이끌어낼 수 있는 최적화가 진행되었고요. 이 서버의 가장 큰 장점도 역시 이 서버 한 대, 레니게이드 8대가 고친 서버 한 대의 소비 전력이 3kW 밖에 안 된다는 것입니다. 많은 수의 데이터 센터들이 렉당 전력 제한이 있습니다. 그래서 서버 한 대가 소모하는 전력이 적어야지 한 렉에 많은 서버를 꽂을 수 있고 그래야지 좁은 면적 안에 최대한 많은 서버를 넣을 수 있게 되는데 서버 같은 경우에는 한 서버에 3kg 정도

05:41:42

20kW 정도밖에 소모하지 않기 때문에 다른 GPU 서버에 비해서 훨씬 효율적이다 라는 말씀을 드릴 수 있습니다. 이 영상은 저희 레니게이드 8장으로 엑사원 4.032BFP8 모델을 데모로 돌리는 영상입니다. 실제 어플라이언스 서버로 돌린 영상인데 이 영상이 지금 256 배치를 돌리고 있는 영상인데 보시면 거의 9000 토큰 퍼 세컨드까지 올라가는 것을 볼 수 있고 이거는 512 배치를 돌리고 있는 영상인데 한 12000 TPS까지 올라가는 모습을 볼 수 있습니다.

05:42:20

대략적으로 LLM 서비스들이 유저 한 명에게 제공하는 DPS가 약 20에서 30 정도면 유저가 크게 불편함을 느끼지 못한다고 합니다. 그런데 저희가 XA1 4.0 32B 모델을 8장에서 돌렸을 때 한 256명에서 512명까지는 20에서 30 DPS 정도를 보장할 수 있기 때문에 상당히 좋은 성능을 보여주고 있고 상용적으로도 실제로 상용화할 만한 프로덕션 레벨의 제품이다 라는 사실을 보여드릴 수 있습니다.

05:42:56

이거는 이제 성능을 실제 한번 수치적으로 나타내는 그래프입니다. 그래서 이 그래프 같은 경우에는 레니게이드 4장과 RTX 프로 6000 4장을 비교한 그래프로 QN3 32B 모델에 대한 그래프입니다. 맨 위에 있는 그래프가 TTFT라고 첫 토큰이 나올 때까지의 레이턴시입니다. 당연히 이제 빠를수록 좋은 거니까 낮을수록 좋은 지표인데 이제 레니게이드가 빨간색이고 RTX 프로 6000이 회색인데 보시면은 약간 미세하게라도 레니게이드가 훨씬 좋은 모습을 보여주는 것을 알 수 있고요. 아웃풋 트럼프 같은 경우에는 이제 토큰 퍼 세컨드라고 이제 초당 생성되는 토큰을 의미합니다.

05:43:37

목표일수록 좋은 것인데 레니게이드가 살짝 뒤쳐지는 모습을 보여주지만 RTX 프로 6000 같은 경우에는 한 장에 거의 400에서 600W를 소모하기 때문에 밑에 있는 파워 이피션식 TPS를 소모 전력으로 나눈 그래프를 보시면 레니게이드가 훨씬 앞서는 모습을 보여줍니다. 이러한 차이를 이제 한번 비즈니스적으로 풀어본 그래프인데요. 이제 오른쪽에 있는 그래프가 나타내는 것이 같은 와트당 서빙할 수 있는 유저수입니다.

05:44:12

아까 말씀드렸다시피 RTX 프로 6000 같은 경우에는 거의 400에서 600W를 소모하고 저희 레니게이드 같은 경우에는 180W 정도밖에 소모하지 않기 때문에 같은 kW당 서빙할 수 있는 유저수가 레니게이드가 거의 한 두 배 가까이 높다는 것을 보여줄 수 있습니다. 추가로 이제 왼쪽 그래프에서 보여드리고자 하는 점은 우선 첫 번째는 저희 소프트웨어 스택의 빠른 발전입니다. 이게 이제 오른쪽 위로 갈수록 좋은 성능을 보여주는 그래프인데 보시면 빨간색 선이 두 개 있는 걸 보실 수 있을 텐데 밑에 깔린 선이 이제 2월달의 성능이고 저희 레니게이드의 위에 떠 있는 선이 3월달의 성능입니다. 불과 한 달 만에 이제 RTX 프로 6000에 비해 못 미치는 결과에서 RTX 프로 6000보다 좋거나 거의 비슷한 결과를 나타내는 수준까지 발전할 수 있는 SDK를 지니고 있다고 말씀드리고 싶습니다.

05:45:09

그리고 이 차이는 아까 말씀드렸던 데이터 센터의 렉당 전력 제한 때문에 렉당이 비교를 하게 되면 더 차이가 커집니다. 대부분의 현재 존재하는 데이터 센터들 같은 경우에는 한 렉당 15kW 정도의 전력 제한을 지니고 있습니다. 즉 저희 애니게이드 서버 같은 경우에는 한 렉에 5대가 들어갈 수 있는 반면 RTX 프로 6000 같은 경우에는 한 서버가 거의 7.5kW 정도를 먹기 때문에 한 렉에 두 대 정도밖에 못 들어간다고 보실 수 있습니다. 이에 따라서 저희 애니게이드 서버가 꽂힌 렉이 한 렉이 서빙할 수 있는 최대 유저수는 880명 정도라고 추산해 볼 수 있고

05:45:50

RTX 프로 6000 같은 경우에는 220명을 서빙할 수 있다고 추원할 수 있습니다. 그렇게 되면 이제 한 렉당 서빙할 수 있는 인원수는 저희가 훨씬 많기 때문에 데이터 센터를 신축하거나 실제 AI 서비스를 운영함에 있어서 훨씬 더 비용 절감에 도움이 될 수 있다는 말씀을 드리고 싶습니다. 이 모든 것이 가능한 것은 저희 칩의 아키텍처인 TCP라는 아키텍처 때문인데요. 텐서 컨트랙션 프로세서의 약자입니다. GPU 같은 경우에는 많이들 아시겠지만 상당히 범용적이고 많은 연산을 처리할 수 있고 되게 연산 집약도가 높은 대신에 엄청나게 전력 소모량이 많습니다.

05:46:30

반면 TPU와 같은 기존의 MPU라고 부를 수 있는 아이들은 최적화된 아키텍처를 갖고 있지만 그만큼 엄청나게 좁은 범용도를 느끼고 있습니다. 반면 저희 TCP 아키텍처는 이 효율성과 범용성 사이에 있는 스윗 스팟을 찾아낸 아키텍처라고 이야기할 수 있습니다. 그래서 저희는 이러한 아키텍처를 실제 양산까지 갈 수 있도록 카드웨어적으로 설계를 잘 해서 HPM3를 상당히 선제적으로 탑재한 MPU 중에 하나이고 TSMC 5nm 공정을 활용하여 현재 양산에 진행 중이 있습니다.

05:47:11

저희는 하드웨어를 제공할 뿐만 아니라 소프트웨어 스택 또한 풀 스택으로 제공하고 있습니다. 저희 소프트웨어 스택 같은 경우에는 쿠버네티스를 네이티브로 지원하기도 하고 VLLM과 호환이 되는 API를 서빙 엔진을 제공하기도 하고 새로운 모델이 등장했을 때 저희 TCP 아키텍처 위에서 가장 잘 돌아갈 수 있도록 컴파일해주는 컴파일러까지 함께 제공하고 있습니다. 이 코드들 같은 경우에는 저희가 실제로 gptoss 120b 모델을 포팅할 때 사용되었던 코드들인데요. 이 코드를 통해서 보여드리고 싶은 점은 저희가 얼마나 효율적이고 빠르게 모델을 임포트할 수 있는가입니다. 맨 왼쪽에 있는 파이토치라고 적힌 부분이 많이들 아시는 그 파이토치입니다. 그 부분은 AI 개발자들이 사용하는 파이썬 프로그램입니다.

05:48:02

그래서 이 파이토치 코드가 약 90% 정도를 차지합니다. 저희가 모델을 인포트할 때 이런 부분 같은 경우에는 저희 개발자들도 다른 개발자분들과 마찬가지로 상당히 빠른 시간 안에 포팅이 가능한 부분입니다. 다만 이렇게 나이브하게만 포팅하게 될 경우에는 저희 칩의 성능을 최대한 끌어내지 못하기 때문에 저희가 만들어낸 도미인 스페시픽 랭귀지인 TCL, 텐서 컨트랙션 랭귀지 및 훨씬 더 하드웨어 단에 거의 쿠드업 단에 최적화를 진행하는 TCP, Virtual ISA라는 언어 두 개를 이제 한 10% 정도의 비율로 사용해서 새로운 모델을 포팅하게 됩니다. 이처럼

05:48:41

뭔가 쉽고 빠른 포팅과 어려움 대신 최대한 성능을 짜낼 수 있는 포팅을 함께 진행하여 효율적으로 모델을 포팅하고 있다고 말씀드릴 수 있습니다. 다만 사용하시는 분들은 당연히 TCL이나 Virtual ISA 같은 로우 레벨 단을 안 보고 싶으실 거라고 생각해서 저희는 이제 사용자 단에서는 거의 한 줄만 바꾸면 사용이 가능하도록 짜놓았습니다. 맨 왼쪽에 있는 Kubernetes 같은 경우에도 그냥 FURIOSA 레니게이터하고 숫자를 적어준다든지 VLLM 호환 가능한 API를 제공하기 때문에 그냥 VLLM 대신에 FURIOSA LLLM을 임포트하면 된다든지 상당히 이제 간단한 임포트가 가능하도록

05:49:26

그래서 이걸 보시면 from vllm import llm을 그냥 from frioza llm import llm으로 바꿔주면 코드가 정상적으로 동작하게 됩니다. 이거 같은 경우는 저희가 앞으로 제공할 모델 로드맵인데 잘 안보이시죠? 저희가 일단 현재 제공하고 있는 모델 로드맵으로는 라마 3.370b, 라마 3.18b 가 있고 x4.032b 가 있으며 qm332b 도 지원하고 있고 현재 로드맵 상에는

05:50:01

젠마나 엑사원 4.5 등등 멀티모델들도 들어가 있습니다 그래서 최대한 빠르게 신규 모델들이 등장했을 때 아! 신규 모델들이 등장했을 때 제공할 수 있도록 하고 있습니다 이거는 실제 이혼 사례인데요 저희가 LGAI 연구원의 엑사원이 1.0부터 4.0, 4.5까지 함께 연구하면서 저희 칩 위에 포팅되도록 진행하고 있습니다 그래서 LGAI 연구원에서도 레니게이드 정말 상용화 가능한 수준의 성능을 보여주고 있다는 평을 보여줬습니다

05:50:36

실제로 삼성 SDS와도 현재 협력 중에 있어서 아마 올해 7월 중으로 최초로 MPU에서 서비스를 런칭할 것으로 예상되고 있습니다. 이거는 저희 간략한 하드베어 로드맵인데요. 현재 레니게이드가 나와 있는 상태이고 레니게이드에서 HBM3를 업그레이드한 레니게이드 플러스가 아마 곧 양산될 예정입니다. 그리고 레니게이드 칩이 두 개가 들어간 레니게이드 맥스나 혹은 이제 많이 관심 가져주셨으면 좋겠는 엣지향으로 나올 레디게이드 S가

05:51:10

로드맵상으로 예정되어 있습니다. 또한 여기 GitHub 링크를 가보시면 저희 레니게이드의 SDK를 어떻게 활용할 수 있는지 다양한 어플리케이션들이 정리되어 있어서 해당 링크에서 저희 레니게이드 SDK를 어떻게 활용할 수 있는지를 한번 확인해 보실 수 있습니다. 이상으로 퓨리오사 AI 발표를 마치겠습니다. 감사합니다.

05:52:00

이렇게 이런 소개할 수 있는