요약 · LLM 아키텍처의 최근 동향은 KV 공유, mHC, 압축 어텐션으로 수렴한다. 세 기법은 메모리 병목과 추론 지연을 낮추면서 안정성을 높이는 상호 보완 축이다. 본문은 문제 정의·원리·트레이드오프와 실무 체크리스트를 한눈에 정리한다.
왜 지금 아키텍처가 다시 중요해졌나
LLM 아키텍처의 최근 동향은 KV 공유, mHC, 압축 어텐션으로 요약된다. 모두가 긴 컨텍스트와 추론 비용이라는 병목을 겨냥한다.
컨텍스트가 길어질수록 KV 캐시가 메모리와 대역폭을 소모해 지연이 증가한다. 특히 서버당 동시 세션이 많은 환경에서 캐시 확장은 곧 비용 상승과 안정성 저하로 이어진다.
학습 단계와 달리 추론 환경은 실시간성과 비용 제약이 강하다. 그래서 구조 자체를 바꾸거나, 캐시를 공유·압축해 병목을 풀고자 하는 시도가 빠르게 도입되고 있다.
용어 정리: KV 캐시와 메모리 병목
Self-attention은 각 토큰별로 Query, Key, Value를 계산하고, 과거 토큰의 K/V를 캐시해 재사용한다. 길이가 길수록 KV 캐시는 선형으로 커져 GPU 메모리와 메모리 대역폭을 압박한다.
추론 중에는 모든 스텝에서 KV 캐시에 접근하므로, 대역폭이 부족하면 GPU 연산 유닛이 놀게 된다. 이 상황은 클라우드 비용과 응답 지연에 직접 반영된다.
따라서 메모리 풋프린트를 줄이거나 접근 패턴을 개선하는 것이 핵심 과제다. 이 글이 다루는 세 가지 흐름은 그 목적을 서로 다른 방식으로 달성한다. 자세한 기초는 내부 가이드에서 정리했다: https://pocketinfo.co.kr/transformer-attention-guide/
흐름 개요: 세 가지 축의 상호 보완성
KV 공유는 동일 레이어 또는 인접 레이어에서 Key/Value를 재사용해 캐시 크기를 줄인다. 반면 mHC는 잔차 경로를 다중 스트림으로 확장하고 구조적으로 혼합해 학습 안정성과 표현력을 높인다.
압축 어텐션은 긴 컨텍스트에서 중요 정보를 보존한 채 KV 캐시를 축약해 메모리와 대역폭 부담을 낮춘다. 특히 학습 재실행 없이 추론 경로에만 개입 가능한 방식이 다수다.
세 축은 경쟁 관계라기보다 결합 효과가 크다. 캐시 공유·압축으로 I/O 병목을 풀고, mHC로 수렴 안정성과 품질을 보완하는 식의 조합이 자연스럽다.
KV 공유의 출발점: MHA에서 MQA로
기본형 MHA는 각 헤드마다 K/V를 유지한다. 이 방식은 표현력은 높지만, 헤드 수에 비례해 캐시 메모리가 커진다.
MQA는 모든 Query 헤드가 하나의 K/V 쌍을 공유한다. 헤드는 Query만 독립하며 Key/Value는 단일 세트로 통합되어 캐시 크기가 크게 줄어든다.
장점은 추론 메모리와 대역폭 절감이며, 긴 컨텍스트에서 이득이 뚜렷하다. 단점은 헤드 간 분리도가 낮아져 특정 작업에서 미세한 품질 저하가 보고되곤 한다는 점으로, 이는 모델과 데이터셋에 따라 달라질 수 있다.
GQA: 그룹 단위 공유의 타협
GQA는 Query 헤드를 여러 그룹으로 묶고, 그룹마다 하나의 K/V를 둔다. Llama 2/3와 Mistral 등에서 채택된 이유는 품질과 메모리 절감의 균형이 좋기 때문이다.
그룹 크기를 조절해 품질과 비용을 맞출 수 있다. 그룹이 작을수록 표현력이 커지고, 그룹이 클수록 캐시 절감이 커진다.
실무에서는 MQA보다 GQA가 안전한 기본값으로 선택되곤 한다. 이유는 품질 저하 위험을 낮추면서도 다수의 배치·세션을 처리할 수 있기 때문이다.
Cross-layer KV sharing: 레이어 간 공유의 실험
Cross-layer KV sharing은 인접 레이어 간에 K/V를 공유하거나 재활용하는 아이디어다. 레이어 수가 많을수록 캐시 누적이 커지므로, 공유 폭이 넓을수록 메모리 이득이 크다.
다만 레이어가 표현하는 단계별 특징이 달라 공유 강도가 과하면 품질 저하 가능성이 있다. 따라서 공유 범위, 갱신 빈도, 혼합 비율을 하이퍼파라미터로 관리해야 한다.
최근 연구들은 레이어 인덱스별로 다른 공유 정책을 쓰거나, 특정 블록만 공유하는 하이브리드 접근을 탐색하고 있다. 긴 컨텍스트 창에서의 지연 단축이 주요 목표다.
KV 공유의 품질·성능 트레이드오프
공유가 강할수록 캐시 메모리는 줄어들지만 헤드 간 표현 분리도가 낮아진다. 이는 미세한 추론 품질 차이로 나타날 수 있다.
반대로 공유를 약하게 두면 메모리 이득이 줄어든다. 실무에서는 목표 지연, 동시 세션 수, GPU 메모리 여유, 품질 요구를 함께 고려해 그룹 크기나 공유 범위를 정한다.
관건은 긴 컨텍스트에서의 누적 지연이다. 캐시 메모리와 I/O가 줄면 스루풋이 오르고, 서버당 세션 수를 늘리기 쉬워진다.
Hyper-Connections: 단일 잔차에서 다중 스트림으로
ByteDance의 Hyper-Connections는 단일 residual stream을 다중 스트림으로 확장해 표현력과 안정성의 동시 개선을 노린다. 원전은 arXiv:2409.19606이며 ICLR 2025에 소개되었다고 보고된다.
핵심은 레이어 내부를 여러 잔차 경로로 분해하고, 이들 간의 연결과 혼합을 학습으로 최적화하는 것이다. 결과적으로 경로 다양성을 확보하면서도 수렴 안정성을 유지하려는 방향이다.
이 접근은 단순한 스킵-커넥션을 넘어서, 정보 흐름을 구조적으로 설계하는 흐름을 열었다. 이후의 mHC가 이 아이디어를 더 제약적으로 발전시켰다.
mHC: 매니폴드 제약으로 안정화 강화
mHC(Manifold-Constrained Hyper-Connections)는 DeepSeek의 2025년 연구로 arXiv:2512.24880에 공개되었다. 핵심은 잔차 스트림 간 혼합을 임의로 두지 않고, 학습된 매니폴드 제약 아래에서 라우팅한다는 점이다.
이 방식은 표현력을 유지하면서도 학습 안정성과 일반화를 강화하는 것을 목표로 한다. 구조적 제약을 통해 경로 선택이 과도하게 유연해지는 것을 방지한다.
요지는 잔차 연결이 "고정 더하기"에서 "학습되는 라우팅"으로 바뀌고 있다는 것이다. 이는 장기적으로 모델 심층부의 설계를 재고하게 만든다.
mHC가 주는 실무적 의미
다중 스트림과 매니폴드 제약은 대규모 학습에서 수렴 불안정과 과적합 신호를 완화하는 데 도움을 줄 수 있다. 이는 장시간 학습과 도메인 전이에 특히 중요하다.
추론 단계에서는 직접적인 속도 이득보다는 품질 안정성의 간접 이점을 노릴 수 있다. 예를 들어 KV 공유·압축으로 생길 수 있는 경미한 품질 차이를 mHC로 보완하는 조합을 고려해볼 수 있다.
결론적으로 mHC는 학습·미세튜닝 환경을 정교하게 제어하려는 팀에 어울린다. 구조적 라우팅이 정착되면, 모델 교체 없이도 업데이트 안정성이 개선될 여지가 있다.
압축 어텐션의 문제 정의: 긴 컨텍스트 비용
긴 컨텍스트 추론의 핵심 문제는 KV 캐시의 선형 증가와 이에 따른 대역폭 병목이다. 캐시를 유지·전송·갱신하는 모든 단계가 지연을 유발한다.
압축 어텐션은 중요 정보를 보존하면서 캐시를 축소한다. 이때 손실 압축과 무손실 압축, 그리고 동적 선택이 혼합된다.
학습을 바꾸지 않고 추론 경로에만 개입 가능한 방법이 많아 도입 장벽이 낮다. 가속기 교체 없이도 실효 성능을 높일 수 있다는 점이 강점이다.
RocketKV: 2단계 압축의 수치와 해석
RocketKV는 NVlabs가 제안한 2단계 KV 캐시 압축 기법으로 보고된다. 공개 자료에 따르면 최대 400× 압축, 종단 3.7× 속도 개선, 메모리 32.6% 절감을 보고했다.
두 단계 구조는 빠른 전처리로 중요도를 추정하고, 후속 단계에서 선택적으로 정밀 보존을 수행한다. 이렇게 하면 전체 지연을 억제하면서도 주의가 필요한 정보는 유지된다.
실무 해석의 포인트는 정확도 손실을 어디에 배치하느냐다. 긴 문서 탐색, 도구 사용 에이전트 등에서 실제 품질 영향은 작업 특성에 따라 달라질 수 있다.
ChunkKV와 의미 단위 보존
ChunkKV는 의미 단위(semantic chunk)를 보존하면서 캐시를 압축하는 접근이다. 핵심은 토큰 개별이 아니라 구문·의미 블록 단위로 중요도를 평가한다는 점이다.
이 방식은 문단·섹션 중심의 질의 응답에서 중요한 문맥을 유지하기 쉽다. 반면 쿼리-특이 정보가 흩뿌려진 작업에서는 이득이 제한적일 수 있다.
현업 적용 시에는 청크 크기, 점수 산식, 재하이드레이션 전략을 함께 조정해야 한다. 모델과 데이터의 상호작용을 관찰하면서 보수적으로 시작하는 것이 좋다.
Squeezed Attention과 지연 단축
Squeezed Attention은 긴 컨텍스트에서 어텐션 계산을 가속하기 위한 경량화·축약 전략을 결합한다. 목적은 연산량과 캐시 접근을 동시에 줄이는 것이다.
압축 비율을 고정하기보다 입력 특성에 따라 동적으로 조절하는 설계가 보고된다. 이는 다양한 길이와 작업 유형에 대한 적응성을 높인다.
실제 도입에서는 배치 크기, 프롬프트 길이, 토큰화 전략과의 궁합을 점검해야 한다. 압축이 과하면 요약·추론 품질이 민감하게 흔들릴 수 있다.
세 기법의 결합: 최신 연구와 구현 패턴
최근 구현은 GQA로 캐시를 축소하고, 압축 어텐션으로 긴 컨텍스트를 가속하며, mHC로 학습 안정성을 확보하는 식으로 결합된다. 각 축의 장단이 서로를 보완한다.
예를 들어 GQA+RocketKV 조합은 메모리·대역폭 부담을 크게 낮추며, mHC는 구조적 라우팅으로 표현 손실 위험을 줄이는 데 기여할 수 있다. 특정 모델군은 Cross-layer 공유까지 얹어 추가 절감을 노린다.
공식 발표가 확정되지 않은 모델명은 피하고, "DeepSeek 계열의 최신 연구" 또는 차세대 Llama 방향성에서 이러한 조합 가능성이 넓게 논의된다. 자세한 비율과 설정은 원전 자료를 참고하는 게 안전하다.
실무 체크리스트: 선택과 서빙 전략
첫째, 컨텍스트 길이 분포를 계측해 캐시 병목이 실제로 크지 확인한다. 짧은 질의가 대부분이면 과도한 압축은 이득이 작다.
둘째, GQA를 기본선으로, MQA·Cross-layer 공유는 A/B로 안전 영역을 확인한다. 품질 민감 작업에는 그룹 크기를 축소해 보수적으로 간다.
셋째, 압축 어텐션은 오프라인 평가 집합으로 정확도 손실 허용치를 정한 뒤 점증적으로 적용한다. 배포 전후 모니터링 지표를 동일하게 맞춰야 비교가 쉽다. 참고 가이드: https://pocketinfo.co.kr/llm-inference-kv-cache/
벤치마크와 모니터링: 무엇을 봐야 하나
평가 축을 지연(P50/P95), 토큰당 비용, 메모리 점유, 정확도(작업별 메트릭)로 분리한다. 각 축의 상관을 기록해 회귀를 조기 탐지한다.
긴 컨텍스트 전용 과제를 별도로 둬 압축·공유 효과를 직관적으로 본다. 문서 질의, 코드 문맥, 멀티문서 요약 등 실제 트래픽에 가까운 시나리오가 좋다.
운영 중에는 세션당 캐시 크기, 재생성율, 타임아웃 비율을 추적한다. 회귀가 보이면 압축 비율·그룹 크기·온디맨드 재하이드레이션을 단계적으로 조정한다.
한국 개발자 관점: 인프라와 비용 최적화
국내 서비스는 트래픽 변동성이 커 피크 시 지연 관리가 중요하다. GQA와 압축 어텐션을 조합해 세션당 메모리와 대역폭을 낮추면 비용과 안정성에 이득이 있다.
온프레미스에서는 GPU 메모리 여유가 적을수록 공유·압축 이점이 커진다. 반대로 클라우드에서는 인스턴스 단위 과금과 오토스케일 정책을 함께 보정해야 효과가 극대화된다.
규제·보안 요구가 강한 도메인일수록 학습 구조(mHC)로 안정성을 보강하고, 추론 구조(KV 공유·압축)로 실시간성을 확보하는 투트랙이 현실적이다.
앞으로의 관전 포인트
KV 공유는 레이어 적응형·작업 적응형으로 더 정교해질 전망이다. 그룹 크기 동적 조절과 선택적 재계산이 연구되고 있다.
mHC 계열은 잔차 라우팅을 아키텍처 차원에서 표준화할 가능성이 있다. 프롬프트 길이와 작업 유형에 따라 경로를 달리 쓰는 시도가 등장할 수 있다.
압축 어텐션은 장기적으로 하드웨어·런타임 최적화와 결합될 수 있다. 캐시 배치·전송 경로 최적화와 함께, 손실 압축의 해상도를 자동으로 조절하는 스케줄러가 핵심이 될 것이다.
자주 묻는 질문
- MQA와 GQA의 핵심 차이는 무엇인가요?
- GQA는 헤드를 그룹으로 묶어 그룹당 K/V를 공유하고, MQA는 모든 헤드가 단일 K/V를 공유합니다. GQA는 품질과 메모리 절감의 균형을 노리고, MQA는 메모리 이득이 큰 대신 특정 과제에서 미세한 품질 저하 가능성이 있습니다.
- Hyper-Connections와 mHC는 어떤 관계인가요?
- mHC는 Hyper-Connections를 매니폴드 제약으로 확장한 형태입니다. 다중 잔차 스트림 간 혼합을 구조적으로 제약해 학습 안정성과 일반화를 강화하는 것이 차별점입니다.
- 압축 어텐션을 쓰면 정확도 손실이 있나요?
- 있을 수 있습니다. 다만 RocketKV처럼 중요도 기반 2단계 압축이나 ChunkKV처럼 의미 단위 보존 전략을 쓰면 손실을 통제할 수 있으며, 허용 오차 내에서 지연과 비용을 크게 줄일 가능성이 있습니다.
- Cross-layer KV sharing은 안전한가요?
- 부분적으로 안전합니다. 인접 레이어 일부만 공유하는 하이브리드 접근이 상대적으로 안정적이며, 공유 강도를 높일수록 품질 저하 가능성은 커질 수 있습니다.
- 세 기법을 모두 도입해야 하나요?
- 필수는 아닙니다. 트래픽 특성과 품질 요구에 따라 단계적으로 적용하면 됩니다. 보편적으로 GQA를 기본선으로 두고, 압축 어텐션을 A/B로 도입하며, mHC는 학습 파이프라인 안정화 필요가 클 때 고려합니다.