AI 에이전트 온프레미스 구축: 데이터 통합 이후 기업AI의 현실적 대안

데이터를 통합한 이후 기업AI의 화두를 다뤄봅니다. 규제와 보안으로 클라우드 LLM을 쓸 수 없는 기업이 폐쇄망·온프레미스에서 AI 에이전트를 구축하는 법, 손익분기점과 국내 금융권의 실제 사례를 정리했습니다.

Jun 22, 2026

AI 에이전트 온프레미스 구축: 데이터 통합 이후 기업AI의 현실적 대안

Contents

통합한 데이터를 클라우드에 보낼 수 없는 기업들 한국 기업이 폐쇄망 AI 에이전트를 구축하는 법 온프레미스의 손익분기점, 규제 강제와 경제 합리성 사이 흔한 함정과 국내 금융권의 실제 구축 사례 데이터를 통합했다면, 다음은 위치를 정할 때입니다 참고 문헌

AI 열풍이 거세게 시작되었던 2023년 당시, 삼성전자는 사내 ChatGPT 사용을 허용한 지 20일 만에 기밀 세 건이 빠져나갔습니다. 반도체 설비 계측 소스코드, 수율 정보, 내부 회의록이었습니다. 회사는 곧장 외부 생성형 AI 사용을 막고 사내 AI 개발로 방향을 틀었습니다. 그로부터 3년이 지난 2026년 1월 22일, 한국은 유럽연합에 이어 세계 두 번째로 AI 기본법을 시행했습니다. 의료와 금융, 생체인식처럼 사람의 권리에 직접 영향을 주는 영역은 '고영향 AI'로 분류되어 신뢰성과 위험관리 의무를 지게 됐습니다.

앞선 아티클에서 우리는 AI 에이전트의 성공이 흩어진 운영 데이터와 분석 데이터를 통합하는 데서 시작된다는 점을 확인했습니다. 그러나 데이터를 통합하고 나면 곧바로 다음 이슈가 따라옵니다. ‘그 통합된 데이터를 어디서, 누구의 통제 아래 처리할 것인가’가 바로 그것입니다. 민감한 데이터를 다루는 기업에게 외부 클라우드 LLM은 선택지가 되지 못하는 경우가 많습니다. 그래서 폐쇄망과 온프레미스, 기업 전용 LLM이 AI 에이전트의 현실적 인프라로 떠오르고 있습니다.

통합한 데이터를 클라우드에 보낼 수 없는 기업들

데이터를 통합하고 나면 왜 '어디서 돌릴지'가 문제가 되나요?

운영 데이터와 분석 데이터를 하나로 합치는 일은 그 자체로 중요하면서도 본질적인 과제입니다. 그 과제를 끝내고 나면 통합된 데이터는 기업에서 가장 값진 자산이 됩니다. 고객의 거래 이력과 신용 정보, 내부 의사결정 기록이 한자리에 모여 AI 에이전트가 즉시 참조할 수 있는 형태가 되기 때문입니다.

문제는 에이전트가 이 데이터를 쓰려면 LLM에 데이터를 넘겨야 한다는 데 있습니다. 외부 클라우드 LLM을 쓴다는 것은 애써 통합해 둔 자산을 회사 경계 밖으로 내보낸다는 뜻입니다. 통합된 데이터가 자산이 되는 순간, 그 데이터를 외부로 보내는 일은 곧 자산을 문밖으로 내보내는 일이 됩니다. 데이터를 합칠수록 그 데이터를 어디서 처리할지의 무게가 커지는 이유입니다.

이 질문은 비단 기술 부서만의 고민에 국한되지 않습니다. 데이터의 위치를 정하는 결정에는 보안과 법무, 규제 대응이 함께 얽혀 있습니다. 통합이 데이터 거버넌스의 첫 단계였다면, 위치를 정하는 일은 그다음 단계입니다.

비용도 무시할 수 없는 변수입니다. 오픈웨이트 모델을 사내에서 직접 돌리면 외부 API에 견줘 백만 토큰당 최대 18배까지 저렴해진다는 분석도 있습니다. AI 에이전트가 다루는 데이터가 늘수록 외부로 나가는 토큰의 양도, 거기에 붙는 비용도 함께 불어납니다. 데이터 통제와 비용이라는 두 축이 같은 방향을 가리키기 시작하는 지점입니다.

이 고민은 국내에 한정된 이슈가 아닙니다. 글로벌 시장조사기관 IDC는 2028년까지 대형 기업의 40%가 AI 워크로드를 위해 프라이빗 클라우드를 도입할 것으로 내다봤습니다. 글로벌 컨설팅 기업 맥킨지는 한발 더 나아가, 자국 통제 아래 두는 소버린 AI 시장이 2030년 6,000억 달러 규모로 커지고 전체 AI 워크로드의 최대 40%가 이 영역으로 옮겨갈 수 있다고 전망했습니다. 클라우드로 한 번 올라갔던 AI가 다시 사내 서버로 내려오는 흐름입니다. 임원 회의의 질문도 "공공 클라우드에서 얼마나 뺄 수 있는가"에서 "어떤 데이터를 처음부터 끝까지 우리가 통제해야 하는가"로 옮겨가고 있습니다.

한국 AI 기본법과 AI 규제가 만든 벽

가장 분명한 벽은 규제입니다. 2026년 1월 시행된 AI 기본법은 의료·금융·생체인식 등을 고영향 AI로 분류하고, 해당 영역의 사업자에게 위험관리체계 구축과 신뢰성 확보를 의무로 규정했습니다. 과학기술정보통신부는 기업 혼란을 줄이기 위해 처벌 규정 적용을 최소 1년 이상 유예하기로 했지만, 방향 자체는 분명합니다. 민감한 판단에 쓰이는 데이터는 그 흐름을 통제할 수 있어야 한다는 것입니다.

금융권은 한발 더 들어가 있습니다. 금융위원회는 2026년 4월 전자금융감독규정 시행세칙을 개정해 금융보안원 평가를 통과한 일부 클라우드 서비스 사용을 허용했습니다. 다만 생성형 AI의 망분리 개선은 후속 과제로 남았고, 완화 대상도 총자산 10조 원 이상의 대형사 49곳으로 제한됐습니다. 규제가 일부 풀렸지만, 대다수 금융사에게 외부 생성형 AI는 여전히 닫혀 있는 셈입니다. 규제 완화가 역설적으로 온프레미스 수요를 유지시키는 구조입니다.

기업에서 발생했던 데이터 유출 이슈가 세운 벽

규제만 벽을 세우는 것은 아닙니다. 사고도 벽을 세웁니다. 앞서 언급한 삼성의 사례는 허용 20일 만에 일어났습니다. 정보보안 기업들의 집계를 보면, 2024년 생성형 AI 관련 데이터 유출 사고는 전년 대비 2.5배로 늘었고, 직원의 38%가 승인 없이 민감 데이터를 AI에 입력한 적이 있다고 답했습니다.

AI 에이전트는 이 위험을 키웁니다. 사람은 외부 도구에 무엇을 입력할지 한 번 더 망설이지만, 자동으로 움직이는 에이전트는 주어진 데이터를 그대로 외부 모델에 넘깁니다. 통합된 데이터에 폭넓게 접근하는 에이전트일수록, 한 번의 잘못된 연결이 더 많은 데이터를 한꺼번에 노출시킵니다. 자율성이 높아질수록 데이터의 거처를 미리 정해 두는 일이 중요해지는 이유입니다.

규제가 만든 벽과 사고가 만든 벽은 출발점이 다르지만 같은 결론에 도달합니다. 민감 데이터는 회사의 경계선 안에서 처리되어야 한다는 것입니다. 이 결론을 받아들인 기업이 마주하는 다음 질문이 바로 "그렇다면 어떻게 구축할 것인가"입니다.

한국 기업이 폐쇄망 AI 에이전트를 구축하는 법

온프레미스 LLM은 어떤 모델로 시작하나요?

다행히 출발점은 비어 있지 않습니다. 외부에 공개된 오픈웨이트 모델을 사내 서버에 직접 올려 쓰는 방식이 가장 현실적입니다. 국내에는 선택지가 빠르게 늘었습니다. LG AI연구원의 엑사원(EXAONE), 업스테이지의 솔라(Solar), SK텔레콤의 A.X가 허깅페이스에 공개되어 있고, 이 가운데 다수가 온프레미스 환경을 공식 지원합니다. SK텔레콤이 공개한 A.X K1은 5,000억 개의 파라미터를 가진 국내 최초의 모델로, 같은 계열의 A.X 4.0(720억)과 라이트(70억)는 오픈소스로 내려받아 사내에 둘 수 있습니다.

이 흐름의 배경에는 정부의 소버린 AI 정책이 있습니다. 과기정통부는 독자 파운데이션 모델을 키우는 '국가대표 AI' 사업으로 다섯 팀을 선정했고, 1차 평가를 거쳐 네 팀으로 좁힌 뒤 연말까지 두 팀으로 압축할 계획입니다. 목표는 GPT나 제미나이 같은 글로벌 프런티어 모델 대비 95% 이상의 성능입니다. 국산 모델 생태계가 두꺼워질수록 온프레미스로 쓸 수 있는 재료도 늘어납니다.

모델을 고르는 기준은 회사가 풀려는 문제입니다. 사내 문서 검색이나 고객 응대처럼 한국어 처리와 도메인 적합성이 중요한 일에는 국산 오픈웨이트 모델이 잘 맞습니다. 범용 추론이 더 필요하면 라마(Llama)나 큐원(Qwen) 같은 글로벌 오픈웨이트 모델을 사내에 올리는 길도 있습니다. 어느 쪽이든 모델의 가중치를 회사가 직접 보유한다는 점이 외부 API와 갈리는 지점이고, AI 에이전트가 그 모델 위에서 사내 데이터를 다루게 됩니다.

GPU 한 장으로 돌아가는 sLLM과 국산 NPU

온프레미스라고 하면 거대한 GPU 농장을 떠올리기 쉽지만, 현실의 분기점은 다른 곳에 있습니다. 핵심은 얼마나 큰 모델을 살 것인가가 아니라, GPU 한 장에 들어가는 작은 모델을 검색 보강으로 어디까지 똑똑하게 만들 것인가입니다.

경량 모델, 이른바 sLLM이 이 지점을 메웁니다. 업스테이지의 솔라 프로(220억)는 GPU 한 장으로 구동할 수 있고, KT는 2,100억 규모의 '믿음'을 40억에서 70억 수준으로 줄인 경량 버전을 내놓았습니다. 모델을 무작정 키우는 대신, 회사가 감당할 수 있는 규모로 줄이고 사내 데이터를 붙여 쓰는 쪽이 더 빠르게 자리를 잡습니다.

하드웨어 쪽에서도 선택지가 생겼습니다. 국산 AI 반도체 기업 리벨리온은 2026년 3월 기업가치 3조 4,000억 원을 인정받으며 데이터센터용 NPU를 상용화했고, 퓨리오사AI는 메타의 1조 2,000억 원대 인수 제안을 거절한 뒤 8,000억 원 규모의 투자를 받아 2세대 칩을 키우고 있습니다. 폐쇄망 안에서 돌릴 연산 자원을 해외 GPU에만 의존하지 않아도 되는 환경이 만들어지는 중입니다.

폐쇄망에서 데이터를 에이전트에 연결하는 법

모델을 사내에 두는 것만으로는 부족합니다. AI 에이전트가 통합된 데이터를 실제로 참조하려면 모델과 데이터를 연결하는 구조가 필요합니다. 폐쇄망 환경에서는 임베딩 모델과 LLM, 그리고 벡터 데이터베이스를 모두 회사 네트워크 안에 두고, 질문과 관련된 데이터 조각만 골라 모델에 전달하는 방식을 씁니다. 검색 보강 생성(RAG)이라 부르는 이 구조 덕분에 데이터는 경계선을 넘지 않습니다.

모델을 데이터에 맞추는 방법은 둘로 갈립니다. 회사 고유의 말투와 출력 형식은 파인튜닝으로 모델에 새기고, 자주 바뀌는 최신 지식은 검색 보강으로 그때그때 불러옵니다. 2026년의 실무 표준은 둘 중 하나가 아니라 둘을 함께 쓰는 쪽으로 모였습니다. 다만 검색 보강도 공짜는 아닙니다. 벡터 저장과 임베딩 갱신, 검색 지연과 원본 동기화에 드는 손이 생각보다 큽니다. 폐쇄망 안에서 AI 에이전트를 운영한다는 것은 모델만이 아니라 이 데이터 파이프라인 전체를 떠안는 일입니다.

여기에 표준 연결 규약인 MCP(Model Context Protocol)가 더해지면서 그림이 한층 또렷해졌습니다. 폐쇄망 안에서도 AI 에이전트는 여러 도구를 거쳐 일합니다. 사내 데이터베이스를 조회하고, 사규를 검색하고, 업무 시스템에 결과를 기록하는 일련의 단계를 스스로 밟습니다. MCP는 이 도구들을 에이전트에 붙이는 공통 규약 역할을 하며, 사내 ERP나 CRM을 연결하는 작업을 매번 새로 짜는 배관에서 반복 가능한 인터페이스로 바꿔 놓습니다. 표준이 자리 잡으면서 폐쇄망 에이전트의 구축 부담도 줄어드는 중입니다. 데이터 통합이 1단계라면, 폐쇄망 안의 검색 보강은 그 통합 데이터를 에이전트의 기억으로 바꾸는 2단계입니다. 두 단계 모두 회사의 경계선 안에서 끝나야 한다는 점이 핵심입니다.

온프레미스의 손익분기점, 규제 강제와 경제 합리성 사이

온프레미스가 클라우드보다 싸지는 분기점은 어디인가요?

온프레미스가 항상 이득인 것은 아닙니다. 손익을 가르는 기준은 의외로 단순합니다. 하나는 GPU 활용률입니다. 인프라 분석 기업 스페론(Spheron)의 분석에 따르면, GPU 활용률이 70% 아래면 클라우드가 총소유비용에서 앞서고, 80%를 넘겨 꾸준히 돌릴 때 3년 기준으로 온프레미스가 유리해집니다. 다른 하나는 토큰 사용량입니다. 월 110억 토큰 안팎이 분기점으로, 그 아래에서는 클라우드 API가 더 경제적입니다.

규모가 큰 쪽에서는 차이가 분명해집니다. 하루 5억 토큰을 처리하는 경우 라마(Llama) 70B를 자체 호스팅하면 월 약 4,360달러가 드는 반면, 같은 양을 클라우드 API로 쓰면 월 2만 2,500달러가량이 듭니다. 다섯 배 차이입니다. 다만 H200 GPU 한 장의 구매가가 3만 5,000달러에서 4만 달러에 이르고, 전력과 냉각, 운영 인력까지 더하면 연간 12만 달러 넘는 비용이 추가로 붙습니다.

그래서 온프레미스가 클라우드보다 저렴해지는 조건은 사실상 하나의 환경으로 수렴합니다. GPU를 24시간 가깝게, 80% 이상 활용하는 것입니다. 그리고 현실의 많은 기업은 그 조건을 채우지 못합니다. 트래픽이 시간대마다 출렁이고 배치 처리에 한계가 있어, 대다수 프로덕션 팀의 GPU 활용률은 40%에서 65% 사이에 머뭅니다.

활용률을 끌어올리는 일은 생각보다 까다롭습니다. AI 에이전트의 부하는 업무 시간에 몰리고 야간에는 비기 일쑤입니다. 여러 부서가 GPU를 나눠 쓰는 체계를 갖추지 못하면 장비는 절반만 돌아갑니다. 그래서 온프레미스를 검토하는 기업이라면 도입 전에 사내 에이전트의 트래픽을 시간대별로 측정해, 정말 80%를 채울 수 있는지부터 확인해야 합니다. 손익분기는 장비를 들인 뒤가 아니라 들이기 전에 계산하는 숫자입니다.

규제 때문에 어쩔 수 없는 기업과 비용으로 선택하는 기업

여기서 두 갈래를 구분할 필요가 있습니다. 금융과 의료, 공공처럼 망분리와 규제가 외부 LLM을 막아 둔 영역은 손익분기와 무관하게 온프레미스로 갈 수밖에 없습니다. 이들에게 온프레미스는 비용 계산의 결과가 아니라 전제조건입니다. 반대로 토큰을 대량으로 쓰는 일부 기업은 순수하게 경제 합리성을 따져 온프레미스를 택합니다. 두 갈래는 출발점이 다른 만큼 의사결정 경로도 다릅니다.

이 구분을 흐리면 판단이 어긋납니다. 활용률을 채우지 못하는 기업이 비용을 이유로 온프레미스에 뛰어들면, 절약을 기대했다가 오히려 비싼 인프라를 떠안게 됩니다. 온프레미스는 모든 기업의 정답이 아니라, 규제에 묶였거나 활용률을 채울 수 있는 기업의 답입니다.

흔한 함정과 국내 금융권의 실제 구축 사례

구매해 놓고 쓰지 않는 GPU와 모델 노후화

가장 자주 보이는 함정은 과대투자입니다. 앞서 본 것처럼 활용률이 40~65%에 머물면 비싸게 들인 GPU가 놀게 됩니다. H200 한 장을 36개월에 걸쳐 감가상각하면 활용하지 못한 시간만큼 매달 833달러 정도가 손실로 환산됩니다. 클라우드는 쓰지 않으면 끄면 그만이지만, 사들인 GPU는 끌 수가 없습니다.

모델 노후화도 무시하기 어렵습니다. 오픈웨이트 모델은 6개월에서 1년 주기로 세대가 바뀝니다. 한 번 고정한 온프레미스 구성은 그 속도를 따라가기 버겁고, 자칫 몇 분기 만에 뒤처진 모델을 끌어안게 됩니다. 미국 매사추세츠공과대학(MIT) 연구진이 인용한 분석에서는 기업 생성형 AI 파일럿의 약 95%가 의미 있는 성과에 이르지 못했다고 합니다. 이 실패율은 온프레미스에서 더 무겁게 다가옵니다. 클라우드의 실패는 구독을 끊으면 끝나지만, 사놓은 GPU의 실패는 장부에 남기 때문입니다.

이 함정을 줄이려면 처음부터 작게 시작하는 편이 안전합니다. GPU 한 장 규모의 경량 모델로 한 부서의 AI 에이전트를 먼저 검증하고, 활용률과 성과가 확인된 다음에 규모를 늘리는 순서입니다. 한 번에 큰 인프라를 들이는 결정은 저활용과 노후화 위험을 동시에 키웁니다. 폐쇄망 구축은 큰 베팅이 아니라 작은 검증의 반복에 가깝습니다.

미래에셋·케이뱅크·신한, 국내 금융권은 어떻게 했나

함정을 피해 자리를 잡은 사례는 금융권에 모여 있습니다. 외부 생성형 AI가 막혀 있다는 제약이 오히려 온프레미스 구축을 앞당긴 분야이기 때문입니다.

미래에셋증권은 네이버클라우드와 함께 경량 모델 HCX-DASH를 기반으로 금융 특화 sLLM을 사내 온프레미스 환경에 구축했습니다. 망분리로 외부 생성형 AI를 쓸 수 없다는 조건이 그대로 설계의 출발점이 됐습니다. 케이뱅크는 업스테이지의 솔라를 기반으로 금융 특화 LLM을 구성했고, 신한은행은 오픈소스 생성형 AI를 토대로 자체 모델을 만들어 들였습니다. 세 곳 모두 외부 API 대신 경계선 안의 모델을 택했다는 공통점이 있습니다.

세 사례에서 공통으로 드러나는 설계 원칙이 있습니다. 모델을 경계선 안에 두는 데서 그치지 않고, 통합한 거래·고객 데이터를 사내 검색 보강으로 모델에 연결해 AI 에이전트가 실시간 맥락을 읽도록 한다는 점입니다. 외부로 한 글자도 내보내지 않으면서 에이전트가 판단에 필요한 데이터를 갖추게 하는 구조입니다. 데이터 통합에서 시작된 과제가 폐쇄망 안의 검색 보강으로 마무리되는 흐름이 금융권에서 가장 먼저 완성되고 있는 셈입니다.

이들이 온프레미스의 최전선에 선 이유는 분명합니다. 금융사에게 망분리는 규제가 아니라 전제조건이고, 외부 생성형 AI를 쓸 수 없으니 사내 구축이 사실상 유일한 길입니다. 공공과 의료 부문도 비슷한 길을 걷고 있습니다. 한국지능정보사회진흥원은 공공부문을 위한 sLLM 도입 프레임워크를 내놓았고, KT클라우드는 공공 기관의 진입 장벽을 낮추는 'AI 파운드리'를 선보였습니다. 규제가 두꺼운 곳일수록 온프레미스 AI 에이전트가 먼저 뿌리내리고 있는 셈입니다.

데이터를 통합했다면, 다음은 위치를 정할 때입니다

데이터 통합이 AI 에이전트의 1단계였다면, 그 통합된 데이터를 어디에 둘지 정하는 일이 2단계입니다. 인프라를 정하는 결정은 "가장 똑똑한 모델은 무엇인가"가 아니라 "우리 데이터가 어느 경계선 안에 있어야 하는가"에서 출발해야 합니다. 규제와 사고가 그어 둔 선을 먼저 확인한 다음에야, 모델과 GPU와 비용 이야기가 의미를 갖습니다.

당장 시작할 수 있는 일은 세 가지입니다. 먼저 통합해 둔 데이터를 민감도와 규제 등급으로 분류해, 클라우드에 보낼 수 있는 데이터와 그럴 수 없는 데이터의 경계를 긋는 일입니다. 다음으로 폐쇄망에 두어야 할 데이터에 대해서는 GPU 활용률과 월 토큰량으로 온프레미스 손익분기를 계산해 봐야 합니다. 마지막으로 경량 모델과 검색 보강, 표준 연결 규약을 묶어 'GPU 한 장' 규모부터 단계적으로 시작하는 것입니다.

준비된 조직과 그렇지 않은 조직의 차이는 모델 카탈로그의 길이가 아니라, 자기 데이터가 어디에 있어야 하는지를 아는 데서 갈립니다. AI 에이전트의 다음 경쟁력은 더 큰 모델이 아니라, 통합한 데이터를 안전한 경계선 안에서 다루는 설계의 깊이에서 결정될 것입니다.

참고 문헌

미래에셋증권 금융 특화 sLLM 온프레미스 구축, CIO Korea (2024)

한국 AI 기본법 시행과 고영향 AI, 국가법령정보센터·신&김 뉴스레터 (2026)

온프레미스 vs 클라우드 LLM 손익분기 분석, Spheron (2026)

국가대표 AI·SKT A.X K1, ZDNet Korea (2025)

Contents

인사이트

AI 에이전트 온프레미스 구축: 데이터 통합 이후 기업AI의 현실적 대안

Jun 22, 2026

Contents

통합한 데이터를 클라우드에 보낼 수 없는 기업들

데이터를 통합하고 나면 왜 '어디서 돌릴지'가 문제가 되나요?

한국 AI 기본법과 AI 규제가 만든 벽

기업에서 발생했던 데이터 유출 이슈가 세운 벽

한국 기업이 폐쇄망 AI 에이전트를 구축하는 법

온프레미스 LLM은 어떤 모델로 시작하나요?

GPU 한 장으로 돌아가는 sLLM과 국산 NPU

폐쇄망에서 데이터를 에이전트에 연결하는 법

온프레미스의 손익분기점, 규제 강제와 경제 합리성 사이

온프레미스가 클라우드보다 싸지는 분기점은 어디인가요?

규제 때문에 어쩔 수 없는 기업과 비용으로 선택하는 기업

흔한 함정과 국내 금융권의 실제 구축 사례

구매해 놓고 쓰지 않는 GPU와 모델 노후화

미래에셋·케이뱅크·신한, 국내 금융권은 어떻게 했나

데이터를 통합했다면, 다음은 위치를 정할 때입니다

참고 문헌

미래에셋증권 금융 특화 sLLM 온프레미스 구축, CIO Korea (2024)

한국 AI 기본법 시행과 고영향 AI, 국가법령정보센터·신&김 뉴스레터 (2026)

온프레미스 vs 클라우드 LLM 손익분기 분석, Spheron (2026)

국가대표 AI·SKT A.X K1, ZDNet Korea (2025)

Contents