힘힘 ( 주식 단타 + 내일 단타 ) | DeepSeek발표 논문 | DConditional Memory via Scalable Lookup

<a href="https://arxiv.org/abs/2601.07372" target="_blank" class="ke-link"> Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models </a><a href="https://arxiv.org/abs/2601.07372" target="_blank" class="ke-link"> 확장 가능한 조회를 통한 조건부 메모리: 대규모 언어 모델을 위한 새로운 희소성 축 </a><div class="figure-open" contenteditable="false" data-ke-type="opengraph" data-ke-align="alignCenter" data-og-type="website" data-og-title="Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models" data-og-description="While Mixture-of-Experts (MoE) scales capacity via conditional computation, Transformers lack a native primitive for knowledge lookup, forcing them to inefficiently simulate retrieval‎ through computation. To address this, we introduce conditional memory as" data-og-host="arxiv.org" data-og-source-url="https://arxiv.org/abs/2601.07372" data-og-url="https://arxiv.org/abs/2601.07372v1" data-og-image="https://scrap.kakaocdn.net/dn/u9aYh/dJMb8WesQXm/uxJ8KfHEljf7QSngkOCwC1/img.png?width=1200&height=700&face=0_0_1200_700,https://scrap.kakaocdn.net/dn/dkSTv8/dJMb8SXq6yq/OqoljP2QriVMNJudffkx61/img.png?width=1000&height=1000&face=0_0_1000_1000"><a href="https://arxiv.org/abs/2601.07372" target="_blank" data-source-url="https://arxiv.org/abs/2601.07372"><div class="og-image"><img class="thumb_img" src="https://scrap.kakaocdn.net/dn/u9aYh/dJMb8WesQXm/uxJ8KfHEljf7QSngkOCwC1/img.png?width=1200&height=700&face=0_0_1200_700,https://scrap.kakaocdn.net/dn/dkSTv8/dJMb8SXq6yq/OqoljP2QriVMNJudffkx61/img.png?width=1000&height=1000&face=0_0_1000_1000" alt="" xxxxonerror="this.src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png""></div><div class="og-text">Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language ModelsWhile Mixture-of-Experts (MoE) scales capacity via conditional computation, Transformers lack a native primitive for knowledge lookup, forcing them to inefficiently simulate retrieval‎ through computation. To address this, we introduce conditional memory asarxiv.org</div></a></div><div class="figure-file" data-ke-type="file" data-file-src="https://t1.daumcdn.net/cafeattach/1Xpcc/dbd18ab8435fa1d0c2e98c555b11d8e028da0679?download" data-file-name="2601.07372v1 (1).pdf" data-file-size="1817160" data-mimetype="application/pdf" data-ke-align="alignCenter"><a href="javascript:checkVirus('grpid%3D1Xpcc%26fldid%3DhrKk%26dataid%3D38349%26fileid%3D42%26regdt%3D20260113203246&url=https%3A%2F%2Ft1.daumcdn.net%2Fcafeattach%2F1Xpcc%2Fdbd18ab8435fa1d0c2e98c555b11d8e028da0679')"><div class="image"></div><div class="desc"><div class="filename">2601.07372v1 (1).pdf</div><div class="size">1.73MB</div></div></a></div><div class="figure-file" data-ke-type="file" data-file-src="https://t1.daumcdn.net/cafeattach/1Xpcc/5029a34774ac917a9147fdf40b68ae594cd8fd77?download" data-file-name="2601.07372v1.pdf" data-file-size="1409701" data-mimetype="application/pdf" data-ke-align="alignCenter"><a href="javascript:checkVirus('grpid%3D1Xpcc%26fldid%3DhrKk%26dataid%3D38349%26fileid%3D43%26regdt%3D20260113203246&url=https%3A%2F%2Ft1.daumcdn.net%2Fcafeattach%2F1Xpcc%2F5029a34774ac917a9147fdf40b68ae594cd8fd77')"><div class="image"></div><div class="desc"><div class="filename">2601.07372v1.pdf</div><div class="size">1.34MB</div></div></a></div> 결론 본 연구에서는 기존의 조건부 연산 패러다임(MoE)에 보완적인 희소성 축으로서 조건부 메모리를 도입하여 , 동적 연산을 통한 지식 검색 시뮬레이션의 비효율성을 해결하고자 합니다. 본 연구에서는 고전적인 방식을 현대화한 모듈인 엔그램을 통해 이 개념을 구체화합니다.N확장 가능하고 상수 시간으로 작동하는 -gram 임베딩영형(1)정적 패턴에 대한 조회희소성 할당 문제를 공식화함으로써 U자형 스케일링 법칙을 발견했으며, 이를 통해 MoE 전문가와 엔그램 메모리 간의 희소 용량 하이브리드 할당이 순수 MoE 기준 모델보다 월등히 우수함을 입증했습니다. 이 법칙에 따라 엔그램을 270억 개의 파라미터로 확장하여 다양한 영역에서 탁월한 성능을 달성했습니다. 특히, 메모리 모듈이 직관적으로 지식 검색을 지원하는 것은 물론, 일반 추론, 코드 작성, 수학 문제 해결에서도 훨씬 더 큰 성능 향상을 확인했습니다.본 연구의 기계론적 분석에 따르면, Engram은 초기 계층에서 정적 재구성 작업을 제거함으로써 네트워크를 효과적으로 "심화"시키고, 이를 통해 전역적 맥락과 복잡한 추론에 집중할 수 있는 주의 용량을 확보합니다. 이러한 아키텍처적 변화는 LongPPL 및 RULER 성능 향상에서 입증된 바와 같이 장기 맥락 처리 능력의 상당한 개선으로 이어집니다. 또한 Engram은 인프라를 고려한 효율성을 최우선 설계 원칙으로 삼습니다. 결정론적 주소 지정 방식을 통해 스토리지와 컴퓨팅을 분리하여 방대한 파라미터 테이블을 호스트 메모리로 오프로드할 때 추론 오버헤드를 최소화할 수 있습니다. 본 연구에서는 조건부 메모리 함수가 차세대 희소 모델을 위한 필수적인 모델링 기본 요소가 될 것으로 예상합니다.  <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/704aa8990a6f84e2da42390f68cdcd755dccf8d6" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/704aa8990a6f84e2da42390f68cdcd755dccf8d6" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/4cb84d14ecf20d1c25320dde379cd3307443a573" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/4cb84d14ecf20d1c25320dde379cd3307443a573" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/1deef6741d470ff1d0dac0042aefcb17d6711a35" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/1deef6741d470ff1d0dac0042aefcb17d6711a35" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/1959a4fa7eb84707326dc5c7ecb8371c471cbdf7" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/1959a4fa7eb84707326dc5c7ecb8371c471cbdf7" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/60f0093a793be2bd6d73e9cd1bdeea1534ccb89d" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/60f0093a793be2bd6d73e9cd1bdeea1534ccb89d" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/958a23fa8c6ed829e68188ee0afb3dc3a3a98bf8" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/958a23fa8c6ed829e68188ee0afb3dc3a3a98bf8" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/4808fcc05702a4a73351a7704c6910310e6ee167" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/4808fcc05702a4a73351a7704c6910310e6ee167" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/37e61d9f2b39f112721df08e90f2fa57f074abd3" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/37e61d9f2b39f112721df08e90f2fa57f074abd3" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/de3253dcda32ce3d23db31ecdc2083134eacb40e" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/de3253dcda32ce3d23db31ecdc2083134eacb40e" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/0edd871f74718f2e7452e26333758da25b145427" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/0edd871f74718f2e7452e26333758da25b145427" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/9e5c4cb27e5f1b4efce52bf6030c29edd808cbed" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/9e5c4cb27e5f1b4efce52bf6030c29edd808cbed" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/ad2e948bdcb0cf8a9acac375d6eff8b92fe7071b" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/ad2e948bdcb0cf8a9acac375d6eff8b92fe7071b" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/9e702c4da1d47f4817c0ce5a913d52e0c48e2659" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/9e702c4da1d47f4817c0ce5a913d52e0c48e2659" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/74f2b7b4af2e019f03a11c1ec61be70d3f9ed7ab" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/74f2b7b4af2e019f03a11c1ec61be70d3f9ed7ab" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/447b0eaf527eabace6a9a555c4729ed0b9bc737a" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/447b0eaf527eabace6a9a555c4729ed0b9bc737a" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/1d66b1dcb74c790fe8d74eb55a1724b087fb2068" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/1d66b1dcb74c790fe8d74eb55a1724b087fb2068" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/9944cc77aaf39ebc809cd4a74ce252110811da89" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/9944cc77aaf39ebc809cd4a74ce252110811da89" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/53bc3dd940ff1ca7b30980749324dce3162b489f" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/53bc3dd940ff1ca7b30980749324dce3162b489f" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/40f005f5fed4b6c85c7a000be8a316e8d520a0b4" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/40f005f5fed4b6c85c7a000be8a316e8d520a0b4" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/cc2099d07f1085f7d9b440b18d205ea14f4108b3" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/cc2099d07f1085f7d9b440b18d205ea14f4108b3" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/5e23b5f9fb120bbbf218f9d0fba455424f41fb4e" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/5e23b5f9fb120bbbf218f9d0fba455424f41fb4e" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/1a1569ece884067129dac26eece5c6de2e9d7977" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/1a1569ece884067129dac26eece5c6de2e9d7977" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/a8f6f89f03ecda2f0ed9a9b6fd4e65ce1b7ec378" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/a8f6f89f03ecda2f0ed9a9b6fd4e65ce1b7ec378" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/f3e505d70036e936ced70e702b297a635680ed83" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/f3e505d70036e936ced70e702b297a635680ed83" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/ba1370f02ef16b6b2a139bddff76b02afb8c6655" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/ba1370f02ef16b6b2a139bddff76b02afb8c6655" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/abb914722a66d1b8e7ae25ad9b633b9248695a41" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/abb914722a66d1b8e7ae25ad9b633b9248695a41" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/a9dac09d45a674d53440460414bae364181ddf41" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/a9dac09d45a674d53440460414bae364181ddf41" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/4debde38526e960cef302b551265b79b442e0170" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/4debde38526e960cef302b551265b79b442e0170" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/c8600d026c6bad13de12b1ed64c9be66507fb895" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/c8600d026c6bad13de12b1ed64c9be66507fb895" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/7ee2cab524397958808f247029e40accbcbbf663" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/7ee2cab524397958808f247029e40accbcbbf663" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/a52abba4530c8df756ec5bd7d68e373c94b2a512" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/a52abba4530c8df756ec5bd7d68e373c94b2a512" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/efa27569cebca4a2335afd196aa234dc959315d1" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/efa27569cebca4a2335afd196aa234dc959315d1" data-origin-width="2479" data-origin-height="3504"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/54e966c524ba053304ed25fb08e7e3d4ddbd25ca" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/54e966c524ba053304ed25fb08e7e3d4ddbd25ca" data-origin-width="2479" data-origin-height="3504"></div>                                                  추상적인 Mixture-of-Experts(MoE)는 조건부 계산을 통해 용량을 확장하는 반면, Transformer는 지식 검색을 위한 기본 요소가 부족하여 계산을 통해 비효율적으로 검색을 시뮬레이션해야 합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 조건부 메모리를 보완적인 희소성 축으로 도입하고, 이를 Engram 이라는 모듈을 통해 구현합니다. Engram은 기존의 알고리즘을 현대화한 것입니다.N-그램 임베딩𝒪(1)조회를 위해 희소성 할당 문제를 공식화함으로써 신경 연산량(MoE)과 정적 메모리(Engram) 간의 균형을 최적화하는 U자형 스케일링 법칙을 발견했습니다. 이 법칙에 따라 Engram을 270억 개의 파라미터로 확장하여 엄격하게 동일한 파라미터와 FLOPs를 가진 MoE 기준선보다 우수한 성능을 달성했습니다. 특히, 메모리 모듈은 지식 검색(예: MMLU)을 지원하는 데 사용될 것으로 예상됩니다.+3.4; CMMLU+4.0), 일반적인 추론 능력에서도 훨씬 더 큰 향상을 관찰할 수 있습니다(예: BBH).+5.0ARC 챌린지+3.7) 및 코드/수학 영역(HumanEval‎)+3.0; 수학+2.4메커니즘 분석에 따르면, 엔그램은 백본의 초기 레이어에서 정적 재구성을 제거하여 복잡한 추론을 위한 네트워크의 깊이를 효과적으로 증가시킵니다. 또한, 로컬 의존성을 조회에 위임함으로써 전역 컨텍스트에 대한 어텐션 용량을 확보하여 장기 컨텍스트 검색(예: 다중 쿼리 NIAH)을 크게 향상시킵니다.84.2→97.0마지막으로, Engram은 인프라를 고려한 효율성을 제공합니다. 결정론적 주소 지정을 통해 호스트 메모리에서 런타임 프리페칭이 가능하며, 오버헤드는 거의 발생하지 않습니다. 우리는 조건부 메모리가 차세대 희소 모델을 위한 필수적인 모델링 기본 요소가 될 것으로 기대합니다. 코드는 <a href="https://github.com/deepseek-ai/Engram" target="_top" class="ke-link">https://github.com/deepseek-ai/Engram</a><a style="color: #2198d4;" href="https://github.com/deepseek-ai/Engram" target="_top" class="ke-link"> 에서 확인할 수 있습니다.</a>1소개희소성은 생물학적 신경 회로에서부터 시작하여 지능형 시스템에 이르기까지 반복적으로 나타나는 설계 원칙입니다 .olshausen1997희소,lennie2003비용] 현대의 대규모 언어 모델(LLM)에 이르기까지. 현재 이 원칙은 주로 전문가 혼합 모델(MoE)을 통해 구현됩니다 .샤지어2017터무니없이,dai2024deepseekmoeMoE 는 조건부 계산을 통해 용량을 확장합니다. 계산량의 비례적인 증가 없이 모델 크기를 획기적으로 늘릴 수 있는 능력 덕분에 MoE는 최첨단 모델의 사실상 표준이 되었습니다 .guo2025deepseek,comanici2025gemini,팀2025키미] .이러한 조건부 계산 패러다임의 성공에도 불구하고, 언어 신호의 본질적인 이질성은 구조적 최적화를 위한 상당한 여지를 시사합니다 . 구체적으로, 언어 모델링은 구성적 추론과 지식 검색이라는 두 가지 질적으로 다른 하위 작업을 포함합니다. 전자는 심층적이고 동적인 계산을 요구하는 반면, 명명된 개체나 정형화된 패턴과 같은 텍스트의 상당 부분은 국소적이고 정적이며 고도로 정형화되어 있습니다 .erman2000관용어,constant2017survey고전적 방법의 효과N-그램 모델 [류2024인피니,nguyen2024이해,brants-etal-2007-대형이러한 지역적 종속성을 포착하는 것은 이러한 규칙성이 계산 비용 이 저렴한 조회로 자연스럽게 표현된다는 것을 의미합니다. 표준 트랜스포머는 [vaswani2017주의기본 지식 조회 기능이 부족하기 때문에 현재의 LLM은 계산을 통해 검색을 시뮬레이션해야 합니다 . 예 를 들어, 공통의 다중 토큰 엔티티를 해결하려면 여러 개의 초기 어텐션 레이어와 피드포워드 네트워크를 사용해야 합니다 .간데하리운2024패치스코프,DBLP:conf/coling/JinYHZWH0MMDYDZ25( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S5.T3" target="_top" class="ke-link">표 3</a> 참조 ). 이 과정은 본질적으로 정적 조회 테이블을 런타임에 재구성하는 비용이 많이 드는 작업으로, 그렇지 않았다면 더 높은 수준의 추론에 할당될 수 있었던 귀중한 순차적 깊이를 사소한 작업에 낭비합니다.이러한 언어적 이중성에 맞춰 모델 아키텍처를 조정하기 위해, 우리는 보완적인 희소성 축인 조건부 메모리를 제안합니다. 조건부 계산은 동적 논리를 처리하기 위해 매개변수를 희소하게 활성화합니다 .샤지어2017터무니없이,bengio2013추정전파경사확률조건부 메모리는 고정된 지식에 대한 정적 임베딩을 검색하기 위해 희소 조회 연산에 의존합니다. 이 패러다임을 예비적으로 탐구하기 위해, 우리는 다시 살펴봅니다.N-그램 임베딩 [보야노프스키2017enriching] 표준적인 인스턴스화로서: 로컬 컨텍스트는 상수 시간 연산을 통해 방대한 임베딩 테이블을 인덱싱하는 키 역할을 합니다.𝒪(1)조회 [티토2017해시,황2025이상,파그노니2025바이트,yu2025스케일링우리의 연구 결과는 놀랍게도 이러한 정적 검색 메커니즘이 현대 MoE 아키텍처를 이상적으로 보완할 수 있음을 보여줍니다. 단, 적절하게 설계되었을 경우에만 가능합니다. 본 논문에서는 고전 적인 방식에 기반한 조건부 메모리 모듈인 Engram을 제안합니다.N-gram 구조를 유지하면서 토크나이저 압축, 멀티 헤드 해싱, 컨텍스트화된 게이팅, 멀티 브랜치 통합과 같은 최신 적응 기능을 갖추고 있습니다( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2" target="_top" class="ke-link">2절</a> 에 자세히 설명 ).이 두 가지 기본 요소 간의 시너지 효과를 정량화하기 위해, 우리는 희소성 할당 문제를 공식화했습니다. 즉, 고정된 총 매개변수 예산이 주어졌을 때, MoE 전문가와 Engram 메모리 사이에 용량을 어떻게 분배해야 하는가 하는 문제입니다. 우리의 실험은 뚜렷한 U자형 스케일링 법칙을 밝혀냈으며, 이는 단순한 조회 메커니즘조차도 일급 모델링 기본 요소로 취급될 때 신경 계산을 보완하는 필수적인 요소로 작용한다는 것을 보여줍니다. 이 할당 법칙에 따라 Engram을 270억 개의 매개변수를 가진 모델로 확장했습니다. 엄격하게 동일한 매개변수와 동일한 FLOPs를 가진 MoE 기준선과 비교했을 때, Engram-27B는 다양한 영역에서 우수한 효율성을 달성했습니다. 특히, 이러한 효율성 향상은 지식 집약적인 작업(예: MMLU)에만 국한되지 않습니다.+3.4; CMMLU:+4.0; MMLU-Pro:+1.8) 기억 용량이 직관적으로 유익한 경우, 일반적인 추론 능력(예: BBH)에서 훨씬 더 큰 향상을 관찰할 수 있습니다.+5.0ARC 챌린지:+3.7; 떨어지다:+3.3) 및 코드/수학 영역(예: HumanEval‎:+3.0; 수학:+2.4; GSM8K:+2.2).LogitLens를 통한 메커니즘 분석 [nostalgebraist2020logitlens] 및 CKA [헨드릭스2020측정이러한 성능 향상의 원인은 다음과 같습니다. Engram은 초기 계층에서 정적 지식을 재구성하는 데 드는 백본의 부담을 덜어주어 복잡한 추론에 사용할 수 있는 유효 깊이를 증가시킵니다. 또한, Engram은 로컬 종속성을 조회에 위임함으로써 어텐션 용량을 확보하여 전역 컨텍스트에 집중할 수 있도록 함으로써 장기 컨텍스트 시나리오에서 탁월한 성능을 발휘합니다. LongPPL에서 기준 모델보다 훨씬 뛰어난 성능을 보여 줍니다 .팡그롱] 및 자 [셰흐룰러( 예: 다중 쿼리 NIAH:)97.0vs.84.2변수 추적:89.0vs.77.0).마지막으로, 우리는 인프라를 고려한 효율성을 최우선 원칙으로 확립합니다. MoE의 동적 라우팅과 달리, Engram은 런타임 프리페칭을 가능하게 하고 통신과 연산을 중첩시키기 위해 결정론적 ID를 사용합니다. 실험 결과에 따르면 100B 파라미터 테이블을 호스트 메모리로 오프로딩할 때 발생하는 오버헤드는 무시할 수 있을 정도로 작습니다.<3%이는 Engram이 GPU 메모리 제약을 효과적으로 우회하여 공격적인 파라미터 확장을 가능하게 한다는 것을 보여줍니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/5ac041da166a288462aa400965ab269499d29cd3" class="txc-image" width="789" height="472" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/5ac041da166a288462aa400965ab269499d29cd3" data-origin-width="947" data-origin-height="567"></div>그림 1 : 엔그램 아키텍처. 이 모듈은 정적 정보를 검색하여 핵심 구조를 강화합니다.N-gram 메모리를 사용하고 컨텍스트 인식 게이팅을 통해 동적 은닉 상태와 융합합니다. 이 모듈은 메모리와 연산을 분리하기 위해 특정 레이어에만 적용되며, 표준 입력 임베딩 및 언임베딩 모듈은 그대로 유지됩니다.2건축학2.1개요<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S1.F1" target="_top" class="ke-link">그림 1</a> 에서 보는 바와 같이 , 엔그램은 정적 패턴 저장과 동적 연산을 구조적으로 분리하여 트랜스포머 백본을 강화하도록 설계된 조건부 메모리 모듈입니다. 형식적으로, 입력 시퀀스가 주어졌을 때엑스=(엑스1,…,엑스티)그리고 숨겨진 상태𝐇(ℓ)∈ℝ티×디레이어에서ℓ모듈은 각 위치를 처리합니다.티두 가지 기능적 단계, 즉 검색과 융합으로 진행됩니다 . 먼저, <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS2" target="_top" class="ke-link">2.2절</a> 에서 자세히 설명한 것처럼 접미사를 추출하고 압축합니다.N본 논문 에서는 해싱을 통해 정적 임베딩 벡터를 결정론적으로 추출하기 위해 -gram을 사용합니다. 이어서 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS3" target="_top" class="ke-link">2.3절 에서는 추출된 임베딩을 현재 은닉 상태에 따라 동적으로 변조하고 경량 컨볼루션을 통해 정제합니다. 마지막으로 </a><a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS4" target="_top" class="ke-link">2.4절</a> 에서는 다중 분기 아키텍처와의 통합을 , <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS5" target="_top" class="ke-link">2.5절</a> 에서는 시스템 수준 설계를 다룹니다 .2.2해시를 이용한 희소 검색N-그램첫 번째 단계에서는 로컬 컨텍스트를 정적 메모리 항목에 매핑하는데, 이 과정에는 토크나이저 압축과 결정론적 해싱을 통한 임베딩 검색이 포함됩니다.토크나이저 압축하는 동안N-gram 모델은 일반적으로 토크나이저 출력에 직접 작동하며, 표준 서브워드 토크나이저는 무손실 재구성을 우선시하여 의미적으로 동등한 용어에 서로 다른 ID를 할당하는 경우가 많습니다(예: Apple vs. ␣apple ) .kudo2018sentencepiecesimplelanguageindependent,li2023starcodersourceyou의미 밀도 를 극대화하기 위해 어휘 투영 계층을 구현합니다. 구체적으로, 전사 함수를 미리 계산합니다.𝒫:다섯→다섯'이는 정규화된 텍스트 동등성(NFKC 사용 ) 을 기반으로 원시 토큰 ID를 정규 식별자로 변환합니다.UAX15-NFKC] , 소문자 변환 등). 실제로 이 과정을 통해 128k 토크나이저의 유효 어휘 크기가 23% 감소합니다( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#A3" target="_top" class="ke-link">부록 C</a> 참조 ). 형식적으로, 위치의 토큰에 대해티우리는 그것의 원시 ID를 매핑합니다.엑스티정식 ID로엑스티'=𝒫(엑스티)접미사를 형성하기 위해N-그램g티,N=(엑스티−N+1',…,엑스티').멀티 헤드 해싱.가능한 모든 조합 공간을 직접 매개변수화합니다.N-그램은 다루기 어렵습니다.티토2017해시본 연구에서는 해싱 기반 접근 방식을 채택합니다. 충돌을 완화하기 위해 다음과 같은 방법을 사용합니다.케이각각에 대해 서로 다른 해시 헤드N-그램 주문N각각의 머리케이압축된 컨텍스트를 임베딩 테이블 내의 인덱스에 매핑합니다.𝐄N,케이(소수 크기)중N,케이) 결정론적 함수를 통해φN,케이:<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">지티,N,케이≜φN,케이(g티,N),에티,N,케이=𝐄N,케이[지티,N,케이].</td><td></td><td style="text-align: right;" rowspan="1">(1)</td></tr></tbody></table></div>실제로는,φN,케이경량 곱셈 XOR 해시로 구현됩니다. 최종 메모리 벡터를 구성합니다.에티∈ℝ디메모리검색된 모든 임베딩을 연결하여:<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">에티≜∥N=2N∥케이=1케이에티,N,케이.</td><td></td><td style="text-align: right;" rowspan="1">(2)</td></tr></tbody></table></div>2.3상황 인식 게이팅검색된 임베딩에티문맥에 독립적인 사전 정보 역할을 합니다. 하지만 정적이기 때문에 본질적으로 문맥 적응성이 부족하고 해시 충돌이나 다의성으로 인한 노이즈에 취약할 수 있습니다 .하버-포에시오-2024-다의성표현력을 향상시키고 이러한 모호성 을 해결하기 위해, 우리는 어텐션 메커니즘에서 영감을 받은 문맥 인식 게이팅 메커니즘을 사용합니다 .vaswani2017주의,bahdanau2014neural구체적 으로, 우리는 현재의 숨겨진 상태를 활용합니다.에티—이전의 어텐션 레이어를 통해 전역 컨텍스트를 집계한—동적 쿼리로서, 검색된 메모리는에티주요 예측과 가치 예측 모두의 출처 역할을 합니다.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">𝐤티=𝐖케이에티,𝐯티=𝐖다섯에티</td><td></td><td style="text-align: right;" rowspan="1">(3)</td></tr></tbody></table></div>어디𝐖케이,𝐖다섯학습 가능한 투영 행렬입니다. 기울기 안정성을 보장하기 위해 [pmlr-v202-dehghani23a] , 우리는 RMSNorm을 적용합니다 .zhang2019root스칼라 게이트를 계산하기 전에 쿼리와 키에 ] 를 추가합니다.알파티∈(0,1):<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">알파티=σ(RMSNorm(에티)⊤RMSNorm(𝐤티)디).</td><td></td><td style="text-align: right;" rowspan="1">(4)</td></tr></tbody></table></div>게이트 출력은 다음과 같이 정의됩니다.𝐯~티=알파티⋅𝐯티이 설계는 의미론적 정렬을 강제합니다. 검색된 메모리가에티현재 상황과 모순됩니다에티문알파티0에 가까워지면서 노이즈를 효과적으로 억제합니다.마지막으로, 수용 영역을 확장하고 모델의 비선형성을 강화하기 위해 짧은 깊이별 인과적 컨볼루션을 도입합니다 .gu2021효율적으로,peng2023rwkv] . 허락하다V~∈ℝ티×디게이트된 값의 시퀀스를 나타냅니다. 커널 크기를 사용합니다.W(4로 설정), 팽창δ(최대값으로 설정)N-그램 순서) 및 SiLU 활성화 [엘프윙2018시그모이드] , 최종 출력𝐘다음과 같이 계산됩니다:<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">𝐘=실루(컨브1디(RMSNorm(V~)))+V~,</td><td></td><td style="text-align: right;" rowspan="1">(5)</td></tr></tbody></table></div>엔그램 모듈은 잔여 연결을 통해 백본에 통합됩니다.𝐇(ℓ)←𝐇(ℓ)+𝐘<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS5" target="_top" class="ke-link">그 다음으로 표준적인 주의(Attention)와 MoE가 이어집니다. 중요한 것은 Engram이 모든 계층에 적용되는 것은 아니라는 점입니다. Engram의 구체적인 배치 위치는 2.5절</a> 에 자세히 설명된 시스템 수준의 지연 시간 제약 조건에 따라 결정됩니다 .<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/66cb97804c2d3e78c1500909e0054569ca7fcac5" class="txc-image" width="788" height="481" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/66cb97804c2d3e78c1500909e0054569ca7fcac5" data-origin-width="946" data-origin-height="578"></div>그림 2 : 엔그램의 시스템 구현. (a) 학습 단계: 방대한 임베딩 테이블은 사용 가능한 GPU에 분산됩니다. 모든 장치 간 통신 기본 요소를 사용하여 활성 임베딩 행을 검색합니다. (b) 추론 단계: 엔그램 테이블은 호스트 메모리로 오프로드됩니다. 호스트는 결정론적 검색 로직을 활용하여 임베딩을 비동기적으로 미리 가져오고 전송하며, 이전 Transformer 블록의 장치 내 계산과 통신을 중첩합니다.2.4다중 분기 아키텍처와의 통합본 연구에서는 표준적인 단일 스트림 연결 방식 대신 [he2016deep] , 우리는 우수한 모델링 기능을 갖춘 고급 다중 분기 아키텍처를 기본 백본으로 채택합니다 .larsson2016fractalnet,zhu2025하이퍼커넥션,xie2025mhcmanifoldconstrainedhyperconnections,szegedy2015going이 아키텍처의 핵심적인 특징은 잔류 흐름이 확장되는 것입니다 .중병렬 분기 구조로, 정보 흐름은 학습 가능한 연결 가중치에 의해 조절됩니다.엔그램 모듈은 본질적으로 토폴로지에 구애받지 않지만, 이러한 다중 분기 프레임워크에 적용하려면 효율성과 표현력의 균형을 맞추기 위해 구조적 최적화가 필요합니다. 구체적으로, 우리는 단일 희소 임베딩 테이블과 값 투영 행렬을 사용하는 매개변수 공유 전략을 구현했습니다.𝐖다섯모든 곳에서 공유됩니다중가지들, 반면에중서로 다른 키 투영 행렬{𝐖케이(중)}중=1중분기별 게이팅 동작을 가능하게 하기 위해 사용됩니다.중숨겨진 상태를 가진 -번째 분기에티(중)분기별 게이팅 신호는 다음과 같이 계산됩니다.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">알파티(중)=σ(RMSNorm(에티(중))⊤RMSNorm(𝐖케이(중)에티)디).</td><td></td><td style="text-align: right;" rowspan="1">(6)</td></tr></tbody></table></div>복원된 메모리는 공유 값 벡터에 적용되는 이러한 독립적인 게이트에 의해 변조됩니다.ु티(중)=알파티(중)⋅(𝐖다섯에티)이 디자인은 선형 투영(하나)을 허용합니다.𝐖다섯그리고중별개의𝐖케이(중))를 단일 밀집 FP8 행렬 곱셈으로 통합하여 최신 GPU의 연산 활용도를 극대화합니다. 달리 명시되지 않는 한, 모든 실험은 매니폴드 제약 하이퍼 연결(Manifold-Constrained Hyper-Connections)과의 통합을 활용합니다.중=4) [xie2025mhcmanifoldconstrainedhyperconnections] .2.5시스템 효율성: 컴퓨팅과 메모리 분리메모리 증강 모델의 확장은 종종 GPU 고대역폭 메모리(HBM)의 제한된 용량으로 인해 제약을 받습니다. 그러나 Engram의 결정론적 검색 메커니즘은 파라미터 저장과 컴퓨팅 리소스의 분리를 자연스럽게 지원합니다. 동적 라우팅을 위해 런타임 은닉 상태에 의존하는 MoE와 달리, Engram의 검색 인덱스는 입력 토큰 시퀀스에만 의존합니다. 이러한 예측 가능성은 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.F2" target="_top" class="ke-link">그림 2</a> 에서 보여주는 것처럼 학습과 추론 모두에 특화된 최적화 전략을 가능하게 합니다 .학습 과정에서 대규모 임베딩 테이블을 처리하기 위해 사용 가능한 GPU에 테이블을 분산시키는 표준 모델 병렬 처리 방식을 사용합니다. 모든 GPU 간 통신(All-to-All communication) 기본 요소를 사용하여 순방향 전달에서 활성 행을 수집하고 역방향 전달에서 기울기를 전달함으로써 전체 메모리 용량이 가속기 수에 비례하여 선형적으로 확장될 수 있도록 합니다.추론 과정에서 이러한 결정론적 특성은 프리페치 및 오버랩 전략을 가능하게 합니다. 메모리 인덱스는 순방향 전달 전에 알려져 있으므로 시스템은 PCIe를 통해 풍부한 호스트 메모리에서 임베딩을 비동기적으로 검색할 수 있습니다. 통신 지연 시간을 효과적으로 숨기기 위해 Engram 모듈은 백본 내 특정 계층에 배치되어 이전 계층의 연산을 버퍼로 활용하여 GPU 스톨을 방지합니다. 이는 하드웨어-알고리즘 공동 설계 전략을 필요로 합니다. Engram을 더 깊은 계층에 배치하면 지연 시간을 숨기는 데 사용할 수 있는 연산 시간이 늘어나지만, <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS2" target="_top" class="ke-link">6.2절의</a> 실험 결과 는 모델링 성능이 로컬 패턴 재구성을 오프로드하기 위한 조기 개입에 유리함을 보여줍니다. 따라서 최적의 배치 위치는 모델링 및 시스템 지연 시간 제약 조건을 동시에 만족해야 합니다.게다가 자연어N-그램은 본질적으로 지프 분포를 따릅니다 .piantadosi2014zipf,Chao1950HumanBA패턴 중 극히 일부만이 메모리 접근의 대부분을 차지하는 통계적 특성 때문에 다단계 캐시 계층 구조가 필요합니다. 자주 접근되는 임베딩은 더 빠른 스토리지 계층(예: GPU HBM 또는 호스트 DRAM)에 캐시하고, 드물게 접근되는 패턴은 속도는 느리지만 용량이 큰 저장 매체(예: NVMe SSD)에 저장합니다. 이러한 계층 구조를 통해 Engram은 실질적인 지연 시간에 미치는 영향을 최소화하면서 대규모 메모리 용량까지 확장할 수 있습니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/7723dfb3978efd7fa1ca3624300dc2d180d060b4" class="txc-image" width="788" height="286" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/7723dfb3978efd7fa1ca3624300dc2d180d060b4" data-origin-width="946" data-origin-height="344"></div>그림 3 :희소성 할당 및 엔그램 스케일링. 왼쪽: 할당 비율에 따른 검증 손실ρ두 가지 컴퓨팅 예산이 표시됩니다.2이자형20그리고6이자형20FLOPs). 두 방식 모두 U자형 확장성을 보이며, 하이브리드 할당 방식이 순수 MoE 방식을 능가합니다. 오른쪽: 무한 메모리 환경에서의 확장성. 검증 손실은 임베딩 개수에 대해 로그 선형 추세를 나타냅니다.3스케일링 법칙과 희소성 할당조건부 메모리의 구현체인 엔그램은 MoE 전문가가 제공하는 조건부 계산과 구조적으로 상호 보완적입니다. 이 섹션에서는 이러한 이중성의 확장성 특성과 희소 용량을 최적으로 할당하는 방법을 조사합니다. 특히, 두 가지 핵심 질문이 본 연구의 핵심입니다.<ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>1. </li><li>2. </li></ol>3.1MoE와 Engram 간의 최적 할당 비율계산 결과에 따른 제형.우리는 세 가지 매개변수 지표를 사용하여 상충 관계를 분석합니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li><li>• </li></ul>우리는 계속피더하다그리고피행동각 FLOPs 예산 내에서 고정되어 모델들이 동일한 매개변수 개수와 토큰당 동일한 FLOPs를 갖도록 합니다. MoE의 경우,피행동상위권에 의해 결정됩니다.케이선정된 전문가의 매개변수가 기여하는 반면, 선정되지 않은 전문가의 매개변수는 기여합니다.피부족한Engram의 경우 토큰당 일정한 수의 슬롯만 가져오므로 임베딩 슬롯 수를 늘리면 비용이 증가합니다.피더하다토큰당 FLOPs를 증가시키지 않고.배분 비율.우리는 할당 비율을 정의합니다.ρ∈[0,1]교육부 전문가 역량에 할당된 비활성 매개변수 예산의 비율로 나타낸 것입니다.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">피교육부(부족한)=ρ피부족한,피엔그램=(1−ρ)피부족한.</td><td></td><td style="text-align: right;" rowspan="1">(7)</td></tr></tbody></table></div>직관적으로:<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li></ul>실험 프로토콜.우리는 두 가지 컴퓨팅 환경에서 이러한 절충점을 평가하고 일정한 희소성 비율을 유지합니다.피더하다/피행동≈10두 설정 모두에서:<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li></ul>다른ρ우리는 라우팅된 전문가 수와 엔그램 임베딩 슬롯 수만 조정하여 해당 모델을 구축합니다. 모든 실행은 동일한 학습 파이프라인과 최적화 하이퍼파라미터를 사용합니다.결과 및 분석.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.F3" target="_top" class="ke-link">그림 3</a> (왼쪽)은 검증 손실과 할당 비율 사이에 일관된 U자형 관계가 있음을 보여줍니다.ρ놀랍게도, 엔그램 모델은 순수 MoE 기준선과 유사한 성능을 달성합니다.ρ=100%교육부 예산 배정액이 단지 로 줄어들더라도ρ≈40%(즉, 57억 모델에는 총 46명의 전문가, 99억 모델에는 총 43명의 전문가가 필요합니다.) 또한, 순수 MoE 기준선은 최적의 결과를 제공하지 못하는 것으로 나타났습니다. 대략적인 재분배를 통해20%–25%Engram에 대한 희소 매개변수 예산이 최상의 성능을 제공합니다. 정량적으로, 10B 영역에서 (기음=6×1020), 검증 손실은 다음과 같이 개선됩니다.1.7248(에ρ=100%) 에게1.7109최적점에 가까운ρ≈80%(Δ=0.0139결정적으로, 이 최적점의 위치는 체제 전반에 걸쳐 안정적입니다.ρ≈75%–80%이는 (고정된 희소성 조건 하에서) 조사된 모든 규모에 걸쳐 강력한 할당 선호도를 시사합니다. 이러한 U자형 패턴은 두 모듈 간의 구조적 상호보완성을 확인시켜 줍니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li></ul>3.2무한 기억 체제 하의 엔그램<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S3.SS1" target="_top" class="ke-link">3.1절</a> 에서는 고정된 매개변수 예산 하에서 할당을 최적화했습니다. 이제 그와 상반되는 설정인 공격적인 메모리 확장을 살펴보겠습니다. 이 연구는 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS5" target="_top" class="ke-link">2.5절</a> 에서 자세히 설명한 Engram의 고유한 기능, 즉 스토리지와 컴퓨팅을 분리하는 능력에서 비롯되었습니다 .실험 프로토콜.당사는 고정 MoE 백본을 활용합니다.피더하다≈3비와피행동=568M은 수렴을 보장하기 위해 1000억 개의 토큰에 대해 학습되었습니다. 이 백본 위에 엔그램 테이블을 연결하고 슬롯 수를 스캔합니다.중~에서2.58×105에게1.0×107(합계는 다음과 같습니다)≈13(수십억 개의 매개변수). 기준선으로는 OverEncoding과 비교합니다 .황2025이상] , 통합하는N어휘 임베딩과의 평균화를 통한 -gram 임베딩. 우리는 SCONE과 같은 다른 연구에서는 다음과 같은 점을 지적합니다 .yu2025스케일링또한 대규모 임베딩을 조사하지만, 주로 추론에 초점을 맞추고 추가 모듈( f-gram 모델 )과 추가 학습 FLOP를 포함하므로 본 연구의 엄격한 등가 계산 제약 조건과 호환되지 않습니다.결과.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.F3" target="_top" class="ke-link">그림 3</a> (오른쪽)은 메모리 슬롯 수를 늘리면 검증 손실이 명확하고 일관되게 개선됨을 보여줍니다. 탐색된 범위 전체에 걸쳐 곡선은 엄격한 멱법칙(로그 공간에서 선형)을 따르며, 이는 Engram이 예측 가능한 확장성 조절 기능을 제공함을 나타냅니다. 즉, 더 큰 메모리를 사용해도 추가적인 계산 없이 성능 향상이 지속됩니다. 확장 효율성 측면에서 중요한 점은 OverEncoding의 직접 평균화 방식이 더 큰 메모리 테이블에서 이점을 얻는 반면, Engram은 동일한 메모리 예산에서 훨씬 더 큰 확장 잠재력을 발휘한다는 것입니다.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S3.SS1" target="_top" class="ke-link"> 3.1절의</a> 할당 법칙과 함께 이러한 결과는 조건부 메모리가 MoE의 조건부 계산을 보완하는 확장 가능한 희소 용량의 독립적인 축 역할을 한다는 것을 입증합니다.4대규모 사전 훈련표 1 :밀집형, MoE, Engram 모델 간의 사전 학습 성능 비교 . 모든 모델은 2620억 개의 토큰으로 학습되었으며 활성화된 매개변수(38억 개)가 일치합니다. Engram-27B는 라우팅된 전문가(72개)로부터 매개변수를 재할당하여 MoE-27B와 동일한 매개변수를 갖도록 조정되었습니다.→55) 5.7B 파라미터의 Engram 메모리로. Engram-40B는 활성화 파라미터 예산을 고정한 상태에서 Engram 메모리를 18.5B 파라미터로 더욱 증가시킵니다. 전체 훈련 시간 벤치마크 궤적은 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#A2" target="_top" class="ke-link">부록 B</a> 에 보고되어 있습니다 .<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: left;">벤치마크 (지표)</td><td style="text-align: center;">#샷</td><td style="text-align: center;">밀도-4B</td><td style="text-align: center;">MoE-27B</td><td style="text-align: right;">엔그램-27B</td><td style="text-align: center;">엔그램-40B</td></tr><tr><td></td><td style="text-align: left;"># 총 매개변수 수</td><td></td><td style="text-align: center;">4.1B</td><td style="text-align: center;">26.7B</td><td style="text-align: right;">26.7B</td><td style="text-align: center;">39.5B</td></tr><tr><td></td><td style="text-align: left;"># 활성화됨 (토큰 삽입 없음)</td><td></td><td style="text-align: center;">3.8B</td><td style="text-align: center;">3.8B</td><td style="text-align: right;">3.8B</td><td style="text-align: center;">3.8B</td></tr><tr><td></td><td style="text-align: left;"># 학습된 토큰</td><td></td><td style="text-align: center;">262B</td><td style="text-align: center;">262B</td><td style="text-align: right;">262B</td><td style="text-align: center;">262B</td></tr><tr><td></td><td style="text-align: left;"># 전문가 (공유 + 라우팅, 최상위-)케이)</td><td></td><td style="text-align: center;">-</td><td style="text-align: center;">2+72(상위 6개)</td><td style="text-align: right;">2+55(상위 6개)</td><td style="text-align: center;">2+55(상위 6개)</td></tr><tr><td></td><td style="text-align: left;"># 엔그램 매개변수</td><td></td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: right;">5.7B</td><td style="text-align: center;">18.5B</td></tr><tr><td style="text-align: center;" rowspan="2">언어모델링</td><td style="text-align: left;">더미 (손실)</td><td style="text-align: center;">-</td><td style="text-align: center;">2.091</td><td style="text-align: center;">1.960</td><td style="text-align: right;">1.950</td><td style="text-align: center;">1.942</td></tr><tr><td style="text-align: left;">검증 세트 (손실)</td><td style="text-align: center;">-</td><td style="text-align: center;">1.768</td><td style="text-align: center;">1.634</td><td style="text-align: right;">1.622</td><td style="text-align: center;">1.610</td></tr><tr><td style="text-align: center;" rowspan="15">지식&추리</td><td style="text-align: left;">MMLU (가용성)</td><td style="text-align: center;">5발</td><td style="text-align: center;">48.6</td><td style="text-align: center;">57.4</td><td style="text-align: right;">60.4</td><td style="text-align: center;">60.6</td></tr><tr><td style="text-align: left;">MMLU-Redux (가용성)</td><td style="text-align: center;">5발</td><td style="text-align: center;">50.7</td><td style="text-align: center;">60.6</td><td style="text-align: right;">64.0</td><td style="text-align: center;">64.5</td></tr><tr><td style="text-align: left;">MMLU-Pro (가상)</td><td style="text-align: center;">5발</td><td style="text-align: center;">21.1</td><td style="text-align: center;">28.3</td><td style="text-align: right;">30.1</td><td style="text-align: center;">31.3</td></tr><tr><td style="text-align: left;">CMMLU (가용성)</td><td style="text-align: center;">5발</td><td style="text-align: center;">47.9</td><td style="text-align: center;">57.9</td><td style="text-align: right;">61.9</td><td style="text-align: center;">63.4</td></tr><tr><td style="text-align: left;">C-Eval‎ (Acc.)</td><td style="text-align: center;">5발</td><td style="text-align: center;">46.9</td><td style="text-align: center;">58.0</td><td style="text-align: right;">62.7</td><td style="text-align: center;">63.3</td></tr><tr><td style="text-align: left;">AGIEval‎ (Acc.)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">29.1</td><td style="text-align: center;">38.6</td><td style="text-align: right;">41.8</td><td style="text-align: center;">45.9</td></tr><tr><td style="text-align: left;">ARC-Easy (액세서리)</td><td style="text-align: center;">25발</td><td style="text-align: center;">76.8</td><td style="text-align: center;">86.5</td><td style="text-align: right;">89.0</td><td style="text-align: center;">90.1</td></tr><tr><td style="text-align: left;">ARC-챌린지 (Acc.)</td><td style="text-align: center;">25발</td><td style="text-align: center;">59.3</td><td style="text-align: center;">70.1</td><td style="text-align: right;">73.8</td><td style="text-align: center;">76.4</td></tr><tr><td style="text-align: left;">트리비아QA (EM)</td><td style="text-align: center;">5발</td><td style="text-align: center;">33.0</td><td style="text-align: center;">48.8</td><td style="text-align: right;">50.7</td><td style="text-align: center;">51.8</td></tr><tr><td style="text-align: left;">트리비아QA-ZH (EM)</td><td style="text-align: center;">5발</td><td style="text-align: center;">62.8</td><td style="text-align: center;">74.8</td><td style="text-align: right;">76.3</td><td style="text-align: center;">77.9</td></tr><tr><td style="text-align: left;">팝QA (EM)</td><td style="text-align: center;">15발</td><td style="text-align: center;">15.1</td><td style="text-align: center;">19.2</td><td style="text-align: right;">19.4</td><td style="text-align: center;">21.2</td></tr><tr><td style="text-align: left;">CCPM (가용성)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">72.2</td><td style="text-align: center;">79.6</td><td style="text-align: right;">87.1</td><td style="text-align: center;">87.7</td></tr><tr><td style="text-align: left;">BBH (EM)</td><td style="text-align: center;">3샷</td><td style="text-align: center;">42.8</td><td style="text-align: center;">50.9</td><td style="text-align: right;">55.9</td><td style="text-align: center;">57.5</td></tr><tr><td style="text-align: left;">헬라스웨그 (Account.)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">64.3</td><td style="text-align: center;">71.8</td><td style="text-align: right;">72.7</td><td style="text-align: center;">73.1</td></tr><tr><td style="text-align: left;">PIQA (Acc.)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">63.8</td><td style="text-align: center;">71.9</td><td style="text-align: right;">73.5</td><td style="text-align: center;">76.5</td></tr><tr><td></td><td style="text-align: left;">위노그란데 (Acc.)</td><td style="text-align: center;">5발</td><td style="text-align: center;">64.0</td><td style="text-align: center;">67.6</td><td style="text-align: right;">67.8</td><td style="text-align: center;">68.1</td></tr><tr><td style="text-align: center;" rowspan="4">독서이해력</td><td style="text-align: left;">드롭 (F1)</td><td style="text-align: center;">원샷</td><td style="text-align: center;">41.6</td><td style="text-align: center;">55.7</td><td style="text-align: right;">59.0</td><td style="text-align: center;">60.7</td></tr><tr><td style="text-align: left;">RACE-중간 (Acc.)</td><td style="text-align: center;">5발</td><td style="text-align: center;">72.4</td><td style="text-align: center;">80.9</td><td style="text-align: right;">82.8</td><td style="text-align: center;">83.3</td></tr><tr><td style="text-align: left;">RACE-High (가속)</td><td style="text-align: center;">5발</td><td style="text-align: center;">66.0</td><td style="text-align: center;">75.4</td><td style="text-align: right;">78.2</td><td style="text-align: center;">79.2</td></tr><tr><td style="text-align: left;">C3 (가해)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">57.7</td><td style="text-align: center;">60.1</td><td style="text-align: right;">63.6</td><td style="text-align: center;">61.8</td></tr><tr><td style="text-align: center;" rowspan="8">코드와 수학</td><td style="text-align: left;">HumanEval‎ (Pass@1)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">26.8</td><td style="text-align: center;">37.8</td><td style="text-align: right;">40.8</td><td style="text-align: center;">38.4</td></tr><tr><td style="text-align: left;">MBPP (Pass@1)</td><td style="text-align: center;">3샷</td><td style="text-align: center;">35.4</td><td style="text-align: center;">46.6</td><td style="text-align: right;">48.2</td><td style="text-align: center;">46.2</td></tr><tr><td style="text-align: left;">CruxEval‎-i (EM)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">27.6</td><td style="text-align: center;">30.7</td><td style="text-align: right;">32.2</td><td style="text-align: center;">36.2</td></tr><tr><td style="text-align: left;">CruxEval‎-o (EM)</td><td style="text-align: center;">0샷</td><td style="text-align: center;">28.7</td><td style="text-align: center;">34.1</td><td style="text-align: right;">35.0</td><td style="text-align: center;">35.3</td></tr><tr><td style="text-align: left;">GSM8K (EM)</td><td style="text-align: center;">8발</td><td style="text-align: center;">35.5</td><td style="text-align: center;">58.4</td><td style="text-align: right;">60.6</td><td style="text-align: center;">62.6</td></tr><tr><td style="text-align: left;">MGSM (EM)</td><td style="text-align: center;">8발</td><td style="text-align: center;">27.0</td><td style="text-align: center;">46.8</td><td style="text-align: right;">49.4</td><td style="text-align: center;">52.4</td></tr><tr><td style="text-align: left;">수학 (EM)</td><td style="text-align: center;">4발</td><td style="text-align: center;">15.2</td><td style="text-align: center;">28.3</td><td style="text-align: right;">30.7</td><td style="text-align: center;">30.6</td></tr></tbody></table></div>본 연구에서는 제안된 Engram 아키텍처와 경험적으로 도출된 할당 법칙을 이용하여 Engram을 수십억 개의 파라미터 규모로 확장하고, 실제 언어 모델 사전 학습에서의 효율성을 검증하고자 합니다. 구체적으로, (1) Dense-4B (총 파라미터 41억 개), (2) MoE-27B (총 파라미터 2,67억 개), (3) Engram-27B (총 파라미터 2,67억 개), (4) Engram-40B (총 파라미터 3,95억 개)의 네 가지 모델을 학습시켰습니다. 모든 모델은 동일한 데이터 커리큘럼(동일한 토큰 예산 및 순서)을 사용하여 학습되었으며, 활성화된 파라미터의 개수는 엄격하게 일치하도록 설정되었습니다.4.1실험 장치 구성학습 데이터 및 모델 구성모든 모델은 2,620억 개의 토큰으로 구성된 코퍼스에서 사전 학습되었으며, DeepSeek-v3의 토크나이저를 사용합니다 .liu2024deepseek어휘 크기는 128k입니다 . 모델링 시, 통제된 비교를 보장하기 위해 명시적으로 달리 언급되지 않는 한 모든 모델에서 일관된 기본 설정을 준수합니다. 은닉층 크기가 2560인 30블록 트랜스포머를 사용합니다. 각 블록은 멀티헤드 잠재 어텐션(MLA)을 통합합니다 .deepseekai2024deepseekv2strongeconomicalefficient] 32개의 헤드를 가지고 있으며 mHC를 통해 FFN에 연결됩니다 .xie2025mhcmanifoldconstrainedhyperconnections] 확장률이 4입니다. 모든 모델은 Muon을 사용하여 최적화되었습니다 .조던2024뮤온,팀2025키미자세한 하이퍼파라미터는 부록 A에 나열되어 있습니다 . <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#A1" target="_top" class="ke-link">우리</a> 는 네 가지 서로 다른 모델을 구현했습니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li><li>• </li><li>• </li></ul>평가 프로토콜저희는 언어 모델링, 지식, 추론, 독해, 코드/수학 등 다양한 분야의 벤치마크를 사용하여 모델을 평가합니다. 각 벤치마크에 대해 표준 프롬프트 프로토콜과 평가 지표를 따릅니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li><li>• </li><li>• </li></ul>4.2실험 결과<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S4.T1" target="_top" class="ke-link">표 1은</a> 주요 결과를 요약합니다. 첫째, 기존 문헌과 일관되게 [샤지어2017터무니없이,he2024믹스,borgeaud2022개선희소 아키텍처는 밀집 모델에 비해 우수한 확장성을 보여줍니다. 동일한 학습 컴퓨팅 예산에서 세 가지 희소 변형(MoE-27B, Engram-27B/40B) 모두 모든 벤치마크에서 동일한 FLOPs 값을 갖는 Dense-4B 기준 모델보다 훨씬 뛰어난 성능을 보였습니다.더욱 중요한 것은 Engram-27B가 동일 파라미터 및 동일 FLOPs의 MoE-27B 기준 모델 대비 지속적으로 향상된 성능을 보인다는 점입니다. 흥미롭게도 이러한 성능 향상은 메모리 용량이 직관적으로 유리한 지식 집약적 작업(예: MMLU: +3.0, MMLU-Pro: +1.8, CMMLU: +4.0)에만 국한되지 않습니다. 일반 추론 영역(예: BBH: +5.0, ARC-Challenge: +3.7, DROP: +3.3)은 물론 코드 및 수학적 추론 영역(예: HumanEval‎: +3.0, MBPP: +1.6, GSM8K: +2.2, MATH: +2.4)에서도 훨씬 더 큰 성능 향상을 확인할 수 있습니다. 벤치마크 데이터의 노이즈 영향을 줄이고 학습 과정을 시각화하기 위해 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#A2" target="_top" class="ke-link">부록 B</a> 에 사전 학습 기간 동안의 전체 벤치마크 궤적을 제공합니다 . 이러한 결과는 전용 지식 조회 기본 요소를 도입하면 전체 희소 예산을 조건부 계산에 할당하는 것보다 표현 효율성이 향상된다는 우리의 가설을 뒷받침합니다.마지막으로, Engram-40B로 확장하면 사전 학습 손실이 더욱 감소하고 대부분의 벤치마크에서 성능이 향상됩니다. 모든 작업에서 Engram-27B를 완전히 능가하지는 않지만, 이는 학습 부족으로 인한 결과일 가능성이 높습니다. Engram-40B와 기준 모델 간의 학습 손실 격차가 학습 후반부로 갈수록 계속 벌어지는 것을 관찰했는데, 이는 확장된 메모리 용량이 현재 토큰 예산 내에서 아직 완전히 포화되지 않았음을 시사합니다.표 2 : 장기 컨텍스트 성능 비교. 괄호 안의 값(예: (50k, 1.62) )은 장기 컨텍스트 확장 전의 사전 학습 단계와 해당 손실을 나타냅니다. 두 가지 주요 결과: (1) 사전 학습 FLOP의 82%(41k 대 50k)만으로도 Engram-27B는 기준선의 LongPPL과 동일한 성능을 보입니다 .팡그롱] RULER에서 훨씬 더 높은 정확도를 달성하면서 성능을 향상시켰습니다 .셰흐룰러( 2) iso-pretraining-loss(46k) 및 iso-pretraining-FLOPs(50k) 설정 모두에서 Engram-27B는 모든 지표에서 기준 모델보다 훨씬 우수한 성능을 보였습니다. 굵은 글씨는 최상의 결과를 나타냅니다 .밑줄두 번째.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td style="text-align: left;" rowspan="3">모델</td><td style="text-align: center;" colspan="4">롱PPL(32k)</td><td style="text-align: center;" colspan="8">자 (32k)</td></tr><tr><td style="text-align: center;" colspan="4">당혹감 (↓)</td><td style="text-align: center;" colspan="4">NIAH 정확도(↑)</td><td style="text-align: center;" colspan="4">기타 작업(↑)</td></tr><tr><td style="text-align: center;">책</td><td style="text-align: center;">종이</td><td style="text-align: center;">암호</td><td style="text-align: center;">엘코티</td><td style="text-align: center;">에스</td><td style="text-align: center;">MK</td><td style="text-align: center;">MV</td><td style="text-align: center;">MQ</td><td style="text-align: center;">VT</td><td style="text-align: center;">CWE</td><td style="text-align: center;">FWE</td><td style="text-align: center;">QA</td></tr><tr><td style="text-align: left;">MoE-27B (50k, 1.63)</td><td style="text-align: center;">4.38</td><td style="text-align: center;">2.91</td><td style="text-align: center;">2.49</td><td style="text-align: center;">14.16</td><td style="text-align: center;">100.0</td><td style="text-align: center;">88.0</td><td style="text-align: center;">92.7</td><td style="text-align: center;">84.2</td><td style="text-align: center;">77.0</td><td style="text-align: center;">4.5</td><td style="text-align: center;">73.0</td><td style="text-align: center;">34.5</td></tr><tr><td style="text-align: left;">엔그램-27B (41k, 1.66)</td><td style="text-align: center;">4.37</td><td style="text-align: center;">2.92</td><td style="text-align: center;">2.50</td><td style="text-align: center;">14.26</td><td style="text-align: center;">99.6</td><td style="text-align: center;">88.3</td><td style="text-align: center;">93.0</td><td style="text-align: center;">89.5</td><td style="text-align: center;">83.2</td><td style="text-align: center;">3.8</td><td style="text-align: center;">99.6</td><td style="text-align: center;">44.0</td></tr><tr><td style="text-align: left;">엔그램-27B (46k, 1.63)</td><td style="text-align: center;">4.19</td><td style="text-align: center;">2.84</td><td style="text-align: center;">2.45</td><td style="text-align: center;">13.59</td><td style="text-align: center;">97.6</td><td style="text-align: center;">89.0</td><td style="text-align: center;">95.5</td><td style="text-align: center;">97.0</td><td style="text-align: center;">87.2</td><td style="text-align: center;">4.3</td><td style="text-align: center;">98.6</td><td style="text-align: center;">37.5</td></tr><tr><td style="text-align: left;">엔그램-27B (50k, 1.62)</td><td style="text-align: center;">4.14</td><td style="text-align: center;">2.82</td><td style="text-align: center;">2.44</td><td style="text-align: center;">13.41</td><td style="text-align: center;">99.3</td><td style="text-align: center;">89.3</td><td style="text-align: center;">96.5</td><td style="text-align: center;">97.0</td><td style="text-align: center;">89.0</td><td style="text-align: center;">5.9</td><td style="text-align: center;">99.3</td><td style="text-align: center;">40.5</td></tr></tbody></table></div>5장기 맥락 훈련엔그램 아키텍처는 로컬 의존성 모델링을 정적 조회로 오프로드함으로써 전역 컨텍스트 관리를 위한 귀중한 주의 용량을 보존합니다. 이 섹션에서는 장기 컨텍스트 확장 훈련을 수행하여 이러한 구조적 이점을 실증적으로 검증합니다 .가오2025기차,펭2023얀아키텍처적 기여도 를 기본 모델 기능과 분리하는 엄격한 평가 프로토콜을 통해, Engram이 장거리 검색 및 추론 작업에서 상당한 성능 향상을 가져온다는 것을 입증합니다.5.1실험 장치 구성교육 세부 정보.장기 컨텍스트 기능을 구현하기 위해 DeepSeek-V3에서 도입된 컨텍스트 확장 전략을 채택합니다 .liu2024deepseek사전 학습 단계를 거친 후 YaRN을 적용 합니다 .펭2023얀32768개 토큰으로 구성된 컨텍스트 학습 단계에서 5000단계(300억 토큰의 고품질 장문 컨텍스트 데이터) 동안 컨텍스트 윈도우 확장을 위한 하이퍼파라미터입니다 .에스=10,알파=1,β=32그리고 스케일링 계수에프=0.707.모델 구성.본 연구에서는 네 가지 모델 구성에 걸쳐 컨텍스트 확장 성능을 비교합니다. MoE-27B와 Engram-27B 모두에 대해 최종 사전 학습 체크포인트(50,000 스텝)를 사용했습니다. 또한, 아키텍처 효율성을 엄격하게 벤치마킹하기 위해 Engram-27B의 경우 41,000 스텝과 46,000 스텝의 중간 체크포인트 두 개를 선택했습니다. 초기화 단계는 다르지만, 모든 변형 모델은 동일한 컨텍스트 확장 학습 프로토콜을 거칩니다. 특히, Engram-27B(46,000 스텝)를 선택한 이유는 완전히 학습된 MoE-27B(50,000 스텝)와 동일한 사전 학습 손실을 보이기 때문입니다. 이를 통해 "Iso-Loss" 설정을 제어하여 컨텍스트 확장 중 발생하는 성능 차이가 모델의 초기 품질이 아닌 아키텍처 때문임을 확인할 수 있습니다.평가 기준.LongPPL을 사용하여 장기 컨텍스트 성능을 평가합니다 .팡그롱] 및 자 [셰흐룰러LongPPL의 경우, 장문 의 책, 연구 논문, 코드 저장소, 그리고 긴 사고 과정(CoT) 궤적의 네 가지 범주에 걸쳐 평가 세트를 구성합니다. RULER의 경우, 단일 키(S), 다중 키(MK), 다중 값(MV), 다중 쿼리(MQ) 니들 인 어 헤이스택, 다중 홉 변수 추적(VT), 공통 단어 추출(CWE), 빈번한 단어 추출(FWE), 그리고 질문 답변(QA)의 8개 범주로 집계된 14개의 하위 집합에 대해 평가를 수행합니다.5.2실험 결과평가 결과는 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S4.T2" target="_top" class="ke-link">표 2</a> 에 요약되어 있습니다 . 엔그램 아키텍처의 기여도를 정확하게 평가하기 위해 본 분석은 두 단계로 진행됩니다. 첫째, 기본 모델 기능의 영향을 아키텍처 설계와 분리하고, 둘째, 통제된 분석을 수행합니다.1. 주의 메커니즘을 뛰어넘는 장기 맥락 처리 능력. 주의 메커니즘과 위치 인코딩은 맥락 처리를 위한 구조적 기반을 제공하지만 [su2023roformerenhancedtransformerrotary,press2021train,양2025경로,샤오2023효율적인] , 우리의 결과는 장기 컨텍스트 성능이 아키텍처 사전 정보에 의해서만 결정되는 것은 아니라는 것을 보여줍니다. Engram(41k)의 궤적을 관찰하면→(50k) 데이터셋을 분석한 결과, 동일한 모델 아키텍처와 컨텍스트 확장 단계에서의 고정된 계산 예산을 유지한 경우에도 사전 학습이 진행됨에 따라 장기 컨텍스트 성능이 단조롭게 향상되는 것을 확인했습니다. 이는 장기 컨텍스트 성능이 기본 모델의 전반적인 모델링 능력과 본질적으로 연관되어 있음을 시사합니다. 따라서, 엄밀한 아키텍처 비교를 위해서는 단순히 학습 단계를 일치시키는 것이 아니라 기본 모델의 손실 함수를 일치시켜 이러한 교란 변수를 제어해야 합니다.2. 통제된 환경에서의 아키텍처적 우월성. 위의 원칙에 따라 Engram을 MoE 기준선과 비교 평가했습니다. 기본 기능을 통제했을 때 Engram 모듈의 효율성 향상이 분명하게 드러납니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li><li>• </li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/928504bac98589d701479ecfd54383fcf12e1d37" class="txc-image" width="830" height="277" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/928504bac98589d701479ecfd54383fcf12e1d37" data-origin-width="997" data-origin-height="333"></div>그림 4 :표현 정렬 및 수렴 속도 분석. (a) LogitLens를 이용한 계층별 KL 발산 [nostalgebraist2020logitlens초기 레이어에서 일관되게 낮은 발산은 엔그램이 예측 수렴을 가속화함을 나타냅니다. (bc) CKA로 계산된 유사도 히트 맵kornblith2019 유사성높은 유사성을 나타내는 대각선의 뚜렷한 상향 이동은 Engram의 얕은 레이어가 MoE 모델의 더 깊은 레이어와 기능적으로 동일하며, 결과적으로 모델의 깊이를 효과적으로 증가시킨다는 것을 보여줍니다 .표 3: 엔티티 해석 예시는 다음에서 재현되었습니다. 간데하리운2024패치스코프이 표는 LLM이 어텐션 및 FFN 계층을 통해 컨텍스트 토큰을 점진적으로 통합하여 엔티티( "다이애나, 웨일즈 공주") 의 내부 표현을 구성하는 방식을 보여줍니다. "잠재 상태 변환" 열에는 PatchScope 에서 마지막 토큰인 "웨일즈" 에 대해 자동으로 생성된 텍스트가 표시됩니다.간데하리운2024패치스코프] 열에는 원저자가 제공한 수동 해석이 제시되어 있습니다.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td style="text-align: center;">층</td><td style="text-align: justify;">잠재상태 번역</td><td style="text-align: justify;">설명</td></tr><tr><td style="text-align: center;">1-2</td><td style="text-align: justify;">: 영국 내 국가</td><td style="text-align: justify;">웨일스</td></tr><tr><td style="text-align: center;">3</td><td style="text-align: justify;">: 유럽의 국가</td><td style="text-align: justify;">웨일스</td></tr><tr><td style="text-align: center;">4</td><td style="text-align: justify;">: 여성 군주가 스스로 또는 왕비의 배우자로서 보유하는 칭호</td><td style="text-align: justify;">웨일즈 공주 (구체적인 명칭 없음)</td></tr><tr><td style="text-align: center;">5</td><td style="text-align: justify;">웨일스 왕자(훗날 왕)의 아내에게 주어지는 칭호</td><td style="text-align: justify;">웨일즈 공주 (구체적인 명칭 없음)</td></tr><tr><td style="text-align: center;">6</td><td style="text-align: justify;">다이애나 왕세자비(1961-1997)는 찰스 왕세자의 첫 번째 부인으로, 아름다운 외모와 인도주의 활동으로 유명했습니다.</td><td style="text-align: justify;">다이애나,웨일즈 공주</td></tr></tbody></table></div>6분석이 섹션에서는 엔그램의 내부 메커니즘, 특히 유효 깊이( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS1" target="_top" class="ke-link">섹션 6.1</a> ), 핵심 모듈 설계( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS2" target="_top" class="ke-link">섹션 6.2</a> ) 및 매개변수 민감도( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS3" target="_top" class="ke-link">섹션 6.3</a> )를 조사합니다. 또한 오프로딩을 통한 추론 처리량을 평가하고( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS4" target="_top" class="ke-link">섹션 6.4</a> ), 사례 연구로 마무리합니다( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS5" target="_top" class="ke-link">섹션 6.5</a> ).6.1엔그램은 모델의 깊이를 증가시키는 것과 기능적으로 동일한가요?현재의 LLM은 전용 지식 조회 기본 요소가 부족하고, 기억 회상을 시뮬레이션하기 위해 계산에 의존합니다. <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S5.T3" target="_top" class="ke-link">표 3</a> 에서 볼 수 있듯이, "다이애나 왕세자비"라는 개체를 인식하기 위해 LLM은 특징을 점진적으로 구성하기 위해 여러 층의 어텐션과 FFN을 사용해야 합니다 .li2025echoesbertmodernlanguage,간데하리운2024패치스코프,DBLP:conf/coling/JinYHZWH0MMDYDZ25이는 이론적으로 지식 조회 작업을 통해 식별될 수 있는 프로세스입니다.이를 바탕으로, Engram은 모델에 명시적인 지식 조회 기능을 부여함으로써, 모델의 초기 특징 구성 단계를 완화하여 모델 깊이 증가를 효과적으로 모방한다고 가정합니다. 이 가설을 검증하기 위해 두 가지 기계론적 해석 가능성 도구인 LogitLens를 사용합니다 .nostalgebraist2020logitlens,belrose2023유발] 및 중심 커널 정렬 분석(CKA) [kornblith2019 유사성,다바리2022신뢰성] .6.1.1가속 예측 수렴먼저 LogitLens를 사용하여 레이어별 예측값의 변화를 분석합니다 .nostalgebraist2020logitlens각 중간 계층의 은닉 상태를 최종 LM 헤드에 투영함으로써 쿨백-라이블러 발산을 계산 합니다 .kullback1951정보중간 출력 분포와 모델의 최종 출력 분포 사이의 차이를 나타냅니다. 이 지표는 잠재 표현이 "예측 준비 완료" 상태에 얼마나 가까운지를 정량화 합니다 .csordas2025언어,belrose2023유발] .<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S5.F4" target="_top" class="ke-link">그림 4</a> (a)는 계층별 KL 발산을 나타냅니다. MoE 기준 모델과 비교했을 때, 두 가지 Engram 변형 모델 모두 체계적으로 더 작은 KL 발산을 보이며, 가장 두드러진 차이는 초기 블록에서 나타납니다. Engram 곡선의 가파른 하강은 모델이 특징 합성을 훨씬 빠르게 완료함을 의미합니다. 이러한 관찰 결과는 우리의 가설과 일치합니다. Engram은 외부 지식을 명시적으로 활용함으로써 필요한 계산 단계를 줄여 네트워크 계층 구조에서 더 일찍 높은 신뢰도의 유효한 예측을 도출할 수 있습니다.6.1.2표현의 정렬과 효과적인 깊이엔그램 레이어가 기준선의 더 깊은 레이어와 의미적으로 대응하는지 추가적으로 조사하기 위해, 표현 구조를 비교하는 데 널리 사용되는 측정 기준인 중심 커널 정렬(CKA)을 사용합니다 .kornblith2019 유사성,kriegeskorte2008대표적] . 두 가지 표현 집합이 주어졌을 때엑스그리고와이(예: 서로 다른 모델이나 레이어의 활성화) CKA는 다음과 같이 정의됩니다.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">CKA(케이,엘)=HSIC(케이,엘)HSIC(케이,케이)HSIC(엘,엘)</td><td></td><td style="text-align: right;" rowspan="1">(8)</td></tr></tbody></table></div>어디케이=엑스엑스⊤그리고엘=와이와이⊤그램 행렬(선형 커널 사용)을 나타내고, HSIC는 힐베르트-슈미트 독립성 기준입니다 .그레튼2005 측정] . 우리는 HSIC의 편향되지 않은 추정량을 사용하는 미니배치 구현을 사용합니다 .다바리2022신뢰성] 그리고 Few-NERD 데이터셋에서 평가합니다 .딩2021퓨명명 된 엔티티의 마지막 토큰에 해당하는 숨겨진 상태를 추출합니다.계층별 대응 관계를 엄밀하게 정량화하기 위해 먼저 쌍별 CKA 유사도 행렬을 계산합니다.에스∈[0,1]엘×엘, 어디엘는 레이어의 개수입니다. 그런 다음 소프트 정렬 인덱스를 도입합니다.에이j상위의 가중 중심점으로 정의됨케이각 엔그램 레이어에 대해 가장 유사한 MoE 레이어j:<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">에이j=∑나∈ℐj에스나,j⋅나∑나∈ℐj에스나,j,어디 ℐj=argtop케이나(에스나,j).</td><td></td><td style="text-align: right;" rowspan="1">(9)</td></tr></tbody></table></div>여기,에스나,jMoE 레이어 간의 유사도 점수를 나타냅니다.나및 엔그램 레이어j인덱스에이j이는 엔그램 레이어에 해당하는 "유효 MoE 깊이"에 대한 강력한 대리 지표 역할을 합니다.j최고를 활용하여케이필터링(포함)케이=5) 유사도가 낮은 노이즈를 완화하기 위해.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S5.F4" target="_top" class="ke-link">그림 4</a> (b)-(c)는 유사도 히트맵에 소프트 정렬 곡선(흰색 점선)을 겹쳐 시각화한 것입니다. 대각선에서 뚜렷한 위쪽 이동이 관찰되는데, 이는 다음을 의미합니다.에이j>j다양한 층에 대해 그렇습니다. 예를 들어, Engram-27B의 5번째 층에서 형성된 표현은 MoE 기준선의 약 12번째 층의 표현과 가장 유사합니다.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.SS1.SSS1" target="_top" class="ke-link">LogitLens 결과( 섹션 6.1.1</a> ) 와 일치하는 일관된 비대각선 이동은 Engram이 초기 레이어에서 더 깊은 표현을 달성함을 확인시켜 줍니다. 이는 우리의 핵심 가설, 즉 명시적 조회를 통한 초기 단계 특징 합성 과정을 우회함으로써 Engram이 모델의 유효 깊이를 증가시키는 것과 기능적으로 동일하다는 가설을 입증합니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/72f57c993917401841dd45bbbf2caa783f1ff737" class="txc-image" width="622" height="384" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/72f57c993917401841dd45bbbf2caa783f1ff737" data-origin-width="747" data-origin-height="461"></div>그림 5 : 아키텍처 제거 결과. 3B MoE 기준선을 두 가지 설정에서 엔그램 변형과 비교합니다. (1) 레이어 민감도(진한 파란색 곡선): 단일 엔그램 모듈의 삽입 깊이를 탐색한 결과 초기 주입(레이어 2)이 최적이며, 더 깊은 레이어에서는 효율성이 저하됨을 확인했습니다. (2) 구성 요소 제거(오른쪽 마커): 참조 구성에서 하위 모듈을 제거하면 다중 분기 통합, 토크나이저 압축 및 컨텍스트 인식 게이팅의 중요성을 보여줍니다.6.2구조적 절제 및 층 민감도이 섹션에서는 제어된 환경에서 엔그램을 제거하여 각 핵심 모듈 설계의 효과를 조사합니다. 특별히 언급되지 않는 한, 기본 모델은 1000억 토큰으로 학습된 12계층 3B MoE 모델(활성화된 파라미터 0.56B개)입니다. <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.F5" target="_top" class="ke-link">그림 5는</a> 검증 손실을 나타냅니다. 주황색 점선은 3B MoE 기준선(검증 손실)을 나타냅니다.=1.808).참조 구성.우리는 1.6B개의 매개변수를 가진 고정된 엔그램 메모리를 사용하여 핵심 구조를 강화합니다. 우리의 참조 모델은 다음과 같습니다.{2,3}-그램과 삽입물은 2층과 6층에 엔그램을 삽입하여 가치 손실을 달성합니다.=1.768교육부 기준선 대비 상당한 개선Δ=0.04아래의 모든 구조적 절제술은 이 기준점을 기준으로 정의됩니다.메모리를 어디에 주입해야 할까요?깊이 민감도를 연구하기 위해, 우리는 엔그램 예산을 고정(1.6B)한 상태로 유지하면서 이를 단일 엔그램 모듈로 통합하고, 삽입 레이어를 1에서 12까지 변화시켰습니다( <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.F5" target="_top" class="ke-link">그림 5</a> 의 진한 파란색 "레이어 스윕" 곡선 ). 이 실험은 엔그램 배치에 내재된 상충 관계를 보여줍니다.배치상의 절충. 엔그램을 초기에 주입하면 백본이 연산 깊이를 소모하기 전에 로컬 패턴 재구성을 처리할 수 있어 백본의 자연스러운 계층적 처리 방식과 일치합니다 .테니2019버트,간데하리운2024패치스코프,li2025echoesbertmodernlanguage,DBLP:conf/coling/JinYHZWH0MMDYDZ25하지만 이는 게이팅 정밀도 측면에서 대가를 치르게 됩니다. 초기 은닉 상태는 아직 어텐션을 통해 충분한 전역적 맥락 을 축적하지 못했고, 병렬 분기는 세밀한 변조에 필요한 표현적 다양성이 부족합니다 .xie2025mhcmanifoldconstrainedhyperconnections,zhu2025하이퍼커넥션따라서 최적의 배치를 위해서는 (i) 정적 로컬 패턴을 초기에 오프로딩하고 (ii) 나중에 게이팅을 위해 더 강력한 컨텍스트 쿼리를 활용하는 것 사이의 균형을 맞춰야 합니다.스윕 결과 레이어 2가 가장 우수한 단일 레이어 성능(값 손실)을 달성한 것으로 나타났습니다.=1.770) 1층보다 우수한 성능을 보이며 삽입 지점이 깊어질수록 성능이 저하됩니다. 이는 한 번의 어텐션만으로도 의미 있는 맥락을 제공하기에 충분하다는 것을 나타냅니다.에티게이팅을 위한 것이면서도, 백본의 최하위 계층 로컬 집계를 대체할 수 있을 만큼 충분히 이른 시점에 작동합니다.단일 주입 제약 조건 하에서는 레이어 2가 최적이지만, 동일한 1.6B 메모리를 두 개의 더 작은 모듈로 나누는 것(임베딩 차원을 줄임으로써 달성)이 더 효율적이라는 것을 발견했습니다.디메모리) 그리고 이들을 레이어 2와 6에 배치하면 성능이 훨씬 더 좋아집니다(값 손실).=1.768이러한 계층형 설계는 초기 개입과 풍부한 후기 단계 컨텍스트 게이팅을 결합하여 절충점을 조정합니다. 더욱 중요한 것은 계층형 삽입이 실질적인 시스템 이점을 제공하여 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS5" target="_top" class="ke-link">2.5절</a> 에서 논의된 바와 같이 메모리 계층 구조를 더 잘 활용할 수 있도록 한다는 점입니다 .어떤 구성 요소가 중요한가요?참조 구성에서 시작하여, 엔그램 파라미터 예산을 고정한 상태로 개별 설계 선택 사항들을 하나씩 제거해 나갑니다. 결과는 <a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.F5" target="_top" class="ke-link">그림 5</a> 의 마커로 표시됩니다. 세 가지 구성 요소, 즉 (i) 다중 분기 백본 내의 분기별 융합, (ii) 컨텍스트 인식 게이팅, (iii) 토크나이저 압축이 가장 큰 성능 향상을 가져오는 것을 확인했습니다. 이 중 하나라도 제거하면 검증 손실이 가장 크게 감소합니다. 특히, "다중 분기 제거"의 경우, mHC 백본 구조는 유지하되 분기별 게이팅을 사전 매핑 후 은닉 상태에 적용되는 단일 엔그램 융합으로 대체합니다.ℋ피아르 자형이자형 [xie2025mhcmanifoldconstrainedhyperconnections] .다른 변경 사항들은 영향이 미미합니다. 가벼운 깊이별 컨볼루션을 제거해도 성능 저하는 거의 없습니다. 16억의 고정된 예산 내에서 4그램 패턴에 용량을 할당하는 것은 약간 최적의 선택이 아닙니다. 이는 더 자주 나타나는 2/3그램 패턴의 용량을 희석시키기 때문일 가능성이 높지만, 고차 컨볼루션이 그 원인일 가능성도 배제할 수는 없습니다.N-그램은 더 큰 메모리 규모에서 유용해집니다.6.3민감도 분석<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/fa6a34ee48a7c4191cbf3ab06a98b7809e5cae0f" class="txc-image" width="747" height="315" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/fa6a34ee48a7c4191cbf3ab06a98b7809e5cae0f" data-origin-width="897" data-origin-height="378"></div>그림 6 :엔그램 제거 후에도 성능이 유지됩니다. 사실적 지식은 엔그램 모듈에 크게 의존하는 반면, 독해력은 핵심 기억 구조에 의해 상당 부분 보존됩니다.엔그램 모듈의 기능적 기여도를 규명하기 위해, 백본은 그대로 유지하면서 추론 과정에서 희소 임베딩 출력을 완전히 억제하는 방식으로 모델을 평가했습니다. 중요한 점은 이러한 사후 제거 과정이 학습-추론 간 불일치를 유발하여 복잡하고 다양한 능력을 요구하는 과제에서 노이즈를 발생시킬 가능성이 있다는 것입니다. 따라서 본 연구에서는 이러한 스트레스 테스트에서 가장 높은 신호 대 잡음비를 보이는 사실적 지식 과 독해력 , 즉 민감도 스펙트럼의 양극단에 해당하는 과제 분석을 우선적 으로 수행했습니다.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.F6" target="_top" class="ke-link">그림 6</a> 에서 볼 수 있듯이 , 결과는 뚜렷한 기능적 이분법을 보여줍니다. 사실적 지식 벤치마크는 심각한 성능 저하를 겪으며 원래 성능의 29~44%만 유지했습니다(예: TriviaQA 29%). 이는 엔그램 모듈이 매개변수적 지식의 주요 저장소 역할을 한다는 것을 확인시켜 줍니다. 반대로, 독해 과제는 놀라울 정도로 회복력이 강해 81~93%의 성능을 유지했습니다(예: C3 93%). 이는 맥락 기반 과제가 엔그램보다는 백본의 어텐션 메커니즘에 주로 의존한다는 것을 시사합니다.6.4시스템 효율성Engram이 라우팅 기반 MoE에 비해 갖는 핵심적인 시스템적 이점은 희소한 활성화 요소들을 명시적이고 정적인 해시 ID로 처리한다는 점입니다. 이는 엄격하게 결정론적인 메모리 접근 패턴을 제공합니다. 토큰 시퀀스가 알려지면 다음 Engram 조회에 필요한 인덱스가 고정되고, 해당 레이어가 실행되기 전에 계산될 수 있습니다.실험 장치 구성.우리는 nano-vLLM 1 을 기반으로 하는 추론 도구를 구현했습니다.1<a href="https://github.com/GeeeekExplorer/nano-vllm" target="_top" class="ke-link">https://github.com/GeeeekExplorer/nano-vllm</a>—업계 표준 vLLM 엔진의 간소화된 프로토타입 [권2023효율적인MoE의 Expert Parallel에서 발생하는 복잡한 통신 패턴 없이 명확한 지연 시간 기준선을 얻기 위해 두 개의 고밀도 백본(Dense-4B 및 Dense-8B)에서 벤치마킹을 수행했습니다. 두 번째 Transformer 블록에 100B 파라미터를 가진 대규모 Engram 레이어를 삽입하고, 전체 임베딩 테이블을 호스트 DRAM에 상주시켰습니다. 추론 과정에서 시스템은 Engram 레이어에 필요한 임베딩을 비동기적으로 미리 가져와 PCIe 전송과 첫 번째 블록의 계산을 중첩시킵니다.표 4 :종단 간 추론 처리량 . 1000억 개의 파라미터를 가진 엔그램 레이어를 호스트 메모리로 완전히 오프로드하여 추론 처리량을 측정했습니다.<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td style="text-align: center;" colspan="3">실험 장치 구성</td></tr><tr><td style="text-align: left;" colspan="2">하드웨어</td><td style="text-align: center;">NVIDIA H800</td></tr><tr><td style="text-align: left;" colspan="2">업무량</td><td style="text-align: center;">512 시퀀스</td></tr><tr><td style="text-align: left;" colspan="2">시퀀스 길이</td><td style="text-align: center;">제복(100,1024)</td></tr><tr><td style="text-align: center;" colspan="3">처리량 결과</td></tr><tr><td style="text-align: left;">기본 모델</td><td style="text-align: left;">구성</td><td style="text-align: center;">처리량(tok/s)</td></tr><tr><td style="text-align: left;" rowspan="2">4B-밀집형</td><td style="text-align: left;">기준선</td><td style="text-align: center;">9,031.62</td></tr><tr><td style="text-align: left;">+ 100B 엔그램(CPU 오프로드)</td><td style="text-align: center;">8,858.28</td></tr><tr><td style="text-align: left;" rowspan="2">8B-밀집</td><td style="text-align: left;">기준선</td><td style="text-align: center;">6,315.52</td></tr><tr><td style="text-align: left;">+ 100B 엔그램(CPU 오프로드)</td><td style="text-align: center;">6,140.02</td></tr></tbody></table></div>결과.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.T4" target="_top" class="ke-link">표 4</a> 에 자세히 설명된 바와 같이 , 100B 파라미터 임베딩 테이블을 오프로딩하는 것은 처리량 측면에서 무시할 만한 수준의 손실만 발생시키며, 최대 손실은 단지 몇 퍼센트에 불과합니다.2.8%8B 백본에서 이러한 결과가 나왔습니다. 이는 초기 밀집 블록의 연산 강도가 검색 지연 시간을 감출 수 있는 충분한 시간적 여유를 제공한다는 것을 확인시켜 줍니다. 특히, 단계별 유효 통신량은 전체 임베딩 테이블 크기가 아니라 활성화된 슬롯 수에 비례하여 증가합니다.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS5" target="_top" class="ke-link">무엇보다 중요한 것은 이 실험이 보수적인 기준선 역할을 한다는 점입니다. 2.5절의</a> 계층적 설계는 지프 지역성을 활용하여 HBM에 자주 사용되는 항목을 캐싱하지만, 본 실험 설정에서는 모든 검색이 호스트 메모리에서 PCIe 버스를 거쳐 이루어지도록 했습니다. 이러한 기준선 검색 전략에서 최소한의 오버헤드만 발생한다는 사실은 지역성을 고려한 최적화된 구현에서도 처리량 손실이 미미할 것임을 강력하게 시사합니다.6.5사례 연구: 게이팅 시각화<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S2.SS3" target="_top" class="ke-link">섹션 2.3</a> 에서는 검색된 정적 메모리를 백본에 통합하는 방식을 동적으로 조절하도록 설계된 컨텍스트 인식 게이팅 메커니즘을 소개했습니다. Engram이 의도한 대로 작동하는지 실증적으로 검증하기 위해 게이팅 스칼라를 시각화했습니다.알파티엔그램-27B 22아키텍처 설정에서 자세히 설명했듯이, 이 모델은 mHC를 활용합니다.중=4이 모델은 2번 레이어와 15번 레이어에 엔그램 모듈을 삽입하여, 주어진 토큰에 대해 총 8개의 서로 다른 게이팅 스칼라 값을 계산합니다. 모든 분기가 해석 가능한 활성화 패턴을 나타내는 것은 아니라는 점을 확인할 수 있습니다. 시각화의 명확성을 위해 의미 패턴 일치와 가장 강한 상관관계를 보이는 게이팅 값들을 선택하여 표시했습니다.<a style="color: #2198d4;" href="https://arxiv.org/html/2601.07372v1#S6.F7" target="_top" class="ke-link">그림 7</a> 의 다양한 샘플에 걸쳐 .결과는 뚜렷한 선택성 패턴을 보여줍니다. 게이팅 메커니즘은 국소적이고 정적인 패턴을 완료할 때 일관되게 활성화됩니다(빨간색으로 표시). 영어에서는 "Alexander the Great", "the Milky Way"와 같은 다중 토큰 명사와 "By the way", "Princess of Wales"와 같은 관용구에서 강한 활성화가 관찰됩니다. 이러한 동작은 여러 언어에 걸쳐 효과적으로 일반화됩니다. 중국어 예시에서는 Engram이 "四大发明", "张仲景" 와 같은 뚜렷한 관용 표현과 역사적 인물을 식별하고 검색합니다 . 이러한 정성적 결과는 Engram이 정형화된 언어적 의존성을 성공적으로 식별하고 처리하여 Transformer 백본이 이러한 정적 연관성을 암기해야 하는 부담을 효과적으로 덜어준다는 것을 확인시켜 줍니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/45680b603c3b8013c11af3b30aad2108848e4548" class="txc-image" width="830" height="193" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/45680b603c3b8013c11af3b30aad2108848e4548" data-origin-width="996" data-origin-height="232"></div>그림 7 : 엔그램의 게이팅 메커니즘 시각화. 히트맵의 강도는 게이팅 스칼라의 크기에 해당합니다.알파티∈[0,1]여기서 붉은색이 진할수록 활성화 정도가 강함을 나타냅니다. 엔그램은 접미사에 작용하기 때문입니다.N-그램(여기)N=3특정 토큰에 대한 높은 활성화엑스티앞선 토큰들이 해당 토큰으로 이어지는 것을 의미합니다(예: 로 끝나는 구문).티)는 메모리에서 효과적으로 불러올 수 있는 정적 패턴으로 인식됩니다.7관련 작업N-그램 모델링 및 임베딩 스케일링.섀넌의 틀에서 유래함 [shannon1948수학] ,N-gram 모델은 토큰을 예측하기 위해 로컬 기록에 의존하며, 전통적으로 평활화 기법을 사용합니다 .kneser1995개선됨,DBLP:저널/tsp/Katz87데이터 희소성 을 완화하기 위해. 신경망 아키텍처로의 패러다임 전환에도 불구하고 [bengio2003neural장거리 의존성을 포착하기 위한 계산 효율성N-gram 조회는 FastText와 같은 선구적인 연구에서 볼 수 있듯이 현대 표현 학습에서 보존되어 왔습니다 .보야노프스키2017enriching] .최근 이러한 패러다임은 임베딩 스케일링 이라는 이름으로 다시 부상했습니다 . 레이어별 임베딩과 같은 아키텍처는 [젬마_3n_2025] 및 DeepEmbed [rwkv_deepembed_wiki_2025대규모 테이블을 통해 용량을 확장하는 것은 우리 접근 방식과 가장 관련성이 높은 선구적인 연구 분야로, 구성 요소를 통합합니다.N-gram 구조를 표현 공간에 직접 삽입합니다. SuperBPE [류2025슈퍼브페] 그리고 스콘 [yu2025스케일링] 명시적으로 고빈도 패턴을 대상으로 합니다. 전자는 여러 단어로 이루어진 표현을 "슈퍼워드" 토큰으로 병합하는 방식이고, 후자는 보조 인코딩 모델을 사용하는 방식입니다. 이와 병행하여 OverEncoding [황2025이상] 및 바이트 잠재 변환기(BLT) [파그노니2025바이트] 해시를 채택합니다N-gram 임베딩을 사용하여 토큰 및 바이트 수준에서 각각 로컬 종속성을 포착합니다. 이러한 연구들은 종합적으로 스케일링 매개변수의 효율성을 입증합니다.N최소한의 계산 오버헤드로 -gram 표현을 구현합니다. 이러한 접근 방식들은 각각의 환경에서 상당한 이점을 제공하지만, 우리의 연구는 두 가지 핵심적인 측면에서 근본적으로 다릅니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>• </li><li>• </li></ul>전문가들의 조합.MoE 아키텍처는 토큰당 소수의 전문가 하위 집합을 조건부로 활성화함으로써 모델 용량과 계산 비용을 분리합니다. 이는 다음에서 소개된 패러다임입니다.샤지어2017터무니없이GShard와 같은 후속 혁신 기술들 [레피킨2020gshard] , BASE [pmlr-v139-lewis21a] , 스위치 트랜스포머 [fedus2022스위치] 및 GLaM [듀2022글램] 는 일정한 추론 비용을 유지하면서 초선형 파라미터 스케일링을 가능하게 했습니다. 최근에는 DeepSeek-MoE [dai2024deepseekmoe] 는 세밀한 전문가 분할 및 공유 전문가 격리를 통해 동일한 활성 매개변수를 가진 밀집 모델보다 훨씬 뛰어난 효율성을 보여주었습니다. 이 아키텍처를 채택하여 DeepSeek- V3 와 같은 최첨단 모델이liu2024deepseek] 및 키미-k2 [팀2025키미] 는 전체 매개변수의 규모를 수천억 개까지 더욱 확장했습니다.메모리 네트워크.메모리 증강 네트워크에 대한 연구는 계산 비용의 비례적인 증가 없이 모델 용량을 확장하는 것을 목표로 하며, 크게 매개변수적 접근 방식과 비매개변수적 접근 방식으로 분류됩니다. PKM과 같은 매개변수적 메모리 방법은 [램플2019대형] , 또래 [he2024믹스] , 자아 [cheng2023리프트] , 메모리+ [베르게스2024메모리] 및 UltraMem [황2024울트라,황2025울트라엠브2대규모의 희소 키-값 저장소를 모델 계층에 직접 통합하여 FLOPs에 거의 영향을 주지 않으면서 용량을 크게 늘립니다. 반대로 REALM과 같은 비매개변수 메모리 접근 방식 은 [guu2020 검색] , 레트로 [borgeaud2022개선,왕2023샬] 및 PlugLM [cheng2023decouple지식 저장과 모델 처리를 분리 하고 , 외부 메모리를 편집 및 확장이 가능한 키-값 저장소로 취급하여 모델이 재학습 없이 변화하는 정보에 적응할 수 있도록 합니다.지식 저장 메커니즘.용량 확장과 병행하여, 상당한 연구가 트랜스포머가 사실적 지식을 인코딩하고 검색하는 방식을 지배하는 내부 메커니즘을 면밀히 조사해 왔습니다. 피드포워드 네트워크(FFN)는 키-값 메모리처럼 기능한다는 가설이 널리 받아들여지고 있습니다 .게바2021트랜스포머이 프레임워크에서 첫 번째 계층은 패턴 탐지기("키") 역할을 하고, 두 번째 계층은 특정 정보를 잔여 스트림("값")에 투영합니다. 이러한 모듈성은 서로 다른 사실을 저장하는 특정 "지식 뉴런"의 식별을 통해 입증 됩니다 .다이2022지식] . 사실적 회상의 정보 흐름을 특정 FFN 계층에 매핑하는 인과 추적 방법론을 통해 추가적인 검증이 이루어집니다 .meng2022위치이러한 통찰력 덕분에 ROME 과 같은 정밀한 모델 편집 알고리즘이 가능해졌습니다 .meng2022위치] 및 MEMIT [멩2022매스] , 이는 재학습 없이 사실적 연관성을 직접 업데이트할 수 있도록 합니다. 또한, Othello-GPT와 같은 내부 표현에 대한 연구도 진행되었습니다 .li2024emergentworldrepresentations탐구이러한 저장 메커니즘은 단순한 통계적 암기 가 아닌 구조화된 "세계 모델"의 출현을 촉진할 수 있음을 시사합니다.8결론본 연구에서는 기존의 조건부 연산 패러다임(MoE)에 보완적인 희소성 축으로서 조건부 메모리를 도입하여 , 동적 연산을 통한 지식 검색 시뮬레이션의 비효율성을 해결하고자 합니다. 본 연구에서는 고전적인 방식을 현대화한 모듈인 엔그램을 통해 이 개념을 구체화합니다.N확장 가능하고 상수 시간으로 작동하는 -gram 임베딩영형(1)정적 패턴에 대한 조회희소성 할당 문제를 공식화함으로써 U자형 스케일링 법칙을 발견했으며, 이를 통해 MoE 전문가와 엔그램 메모리 간의 희소 용량 하이브리드 할당이 순수 MoE 기준 모델보다 월등히 우수함을 입증했습니다. 이 법칙에 따라 엔그램을 270억 개의 파라미터로 확장하여 다양한 영역에서 탁월한 성능을 달성했습니다. 특히, 메모리 모듈이 직관적으로 지식 검색을 지원하는 것은 물론, 일반 추론, 코드 작성, 수학 문제 해결에서도 훨씬 더 큰 성능 향상을 확인했습니다.본 연구의 기계론적 분석에 따르면, Engram은 초기 계층에서 정적 재구성 작업을 제거함으로써 네트워크를 효과적으로 "심화"시키고, 이를 통해 전역적 맥락과 복잡한 추론에 집중할 수 있는 주의 용량을 확보합니다. 이러한 아키텍처적 변화는 LongPPL 및 RULER 성능 향상에서 입증된 바와 같이 장기 맥락 처리 능력의 상당한 개선으로 이어집니다. 또한 Engram은 인프라를 고려한 효율성을 최우선 설계 원칙으로 삼습니다. 결정론적 주소 지정 방식을 통해 스토리지와 컴퓨팅을 분리하여 방대한 파라미터 테이블을 호스트 메모리로 오프로드할 때 추론 오버헤드를 최소화할 수 있습니다. 본 연구에서는 조건부 메모리 함수가 차세대 희소 모델을 위한 필수적인 모델링 기본 요소가 될 것으로 예상합니다.참고 자료부록부록 A상세 모델 아키텍처 및 하이퍼 파라미터<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td></td><td style="text-align: center;">밀도-4B</td><td style="text-align: center;">MoE-27B</td><td style="text-align: center;">엔그램-27B</td><td style="text-align: center;">엔그램-40B</td></tr><tr><td style="text-align: left;">총 매개변수</td><td style="text-align: center;">4.1B</td><td style="text-align: center;">26.7B</td><td style="text-align: center;">26.7B</td><td style="text-align: center;">39.5B</td></tr><tr><td style="text-align: left;">활성 매개변수</td><td style="text-align: center;" colspan="4">3.8B</td></tr><tr><td style="text-align: left;">총 토큰 수</td><td style="text-align: center;" colspan="4">262B</td></tr><tr><td style="text-align: left;">레이어</td><td style="text-align: center;" colspan="4">30</td></tr><tr><td style="text-align: left;">차원</td><td style="text-align: center;" colspan="4">2560</td></tr><tr><td style="text-align: left;">선도적인 고밀도 층</td><td style="text-align: center;">-</td><td style="text-align: center;">1</td><td style="text-align: center;">1</td><td style="text-align: center;">1</td></tr><tr><td style="text-align: left;">라우팅 전문가</td><td style="text-align: center;">-</td><td style="text-align: center;">72</td><td style="text-align: center;">55</td><td style="text-align: center;">55</td></tr><tr><td style="text-align: left;">활동적인 전문가</td><td style="text-align: center;">-</td><td style="text-align: center;">6</td><td style="text-align: center;">6</td><td style="text-align: center;">6</td></tr><tr><td style="text-align: left;">공유 전문가</td><td style="text-align: center;">-</td><td style="text-align: center;">2</td><td style="text-align: center;">2</td><td style="text-align: center;">2</td></tr><tr><td style="text-align: left;">부하 분산 방식</td><td style="text-align: center;">-</td><td style="text-align: center;" colspan="3">손실 없는 [왕2024보조손실무부하균형전략]</td></tr><tr><td style="text-align: left;">주의 모듈</td><td style="text-align: center;" colspan="4">MLA [deepseekai2024deepseekv2strongeconomicalefficient]</td></tr><tr><td style="text-align: left;">로프θ </td><td style="text-align: center;" colspan="4">10000</td></tr><tr><td style="text-align: left;">mHC 확장 속도</td><td style="text-align: center;" colspan="4">4</td></tr><tr><td style="text-align: left;">시퀀스 길이</td><td style="text-align: center;" colspan="4">4096</td></tr><tr><td style="text-align: left;">어휘 크기</td><td style="text-align: center;" colspan="4">129280</td></tr><tr><td style="text-align: left;">배치 크기</td><td style="text-align: center;" colspan="4">1280</td></tr><tr><td style="text-align: left;">훈련 단계</td><td style="text-align: center;" colspan="4">50000</td></tr><tr><td style="text-align: left;">백본 최적화 도구</td><td style="text-align: center;" colspan="4">뮤온 [조던2024뮤온]</td></tr><tr><td style="text-align: left;">임베딩 최적화 도구</td><td style="text-align: center;" colspan="4">아담 [kingma2014adam]</td></tr><tr><td style="text-align: left;">기본 학습률</td><td style="text-align: center;" colspan="4">4e-4</td></tr><tr><td style="text-align: left;">LR 스케줄러</td><td style="text-align: center;" colspan="4">단계적 감쇠 [bi2024deepseek]</td></tr><tr><td style="text-align: left;">무게 감소</td><td style="text-align: center;" colspan="4">0.1</td></tr><tr><td style="text-align: left;">엔그램 딤디메모리 </td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">1280</td><td style="text-align: center;">1280</td></tr><tr><td style="text-align: left;">엔그램 어휘 크기</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">2262400</td><td style="text-align: center;">7239680</td></tr><tr><td style="text-align: left;">엔그램 번호 헤드</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">8</td><td style="text-align: center;">8</td></tr><tr><td style="text-align: left;">엔그램 레이어</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">[2,15]</td><td style="text-align: center;">[2,15]</td></tr><tr><td style="text-align: left;">엔그램N-그램</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">[2,3]</td><td style="text-align: center;">[2,3]</td></tr><tr><td style="text-align: left;">Engram은 mHC를 결합합니다.</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">진실</td><td style="text-align: center;">진실</td></tr><tr><td style="text-align: left;">엔그램 토크나이저 압축</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">진실</td><td style="text-align: center;">진실</td></tr><tr><td style="text-align: left;">Engram Conv Zero Init</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">진실</td><td style="text-align: center;">진실</td></tr><tr><td style="text-align: left;">엔그램 Lr 멀티플라이어</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">x5</td><td style="text-align: center;">x5</td></tr><tr><td style="text-align: left;">엔그램 무게 감소</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;">0.0</td><td style="text-align: center;">0.0</td></tr><tr><td style="text-align: left;">엔그램 최적화 도구(내장 전용)</td><td style="text-align: center;">-</td><td style="text-align: center;">-</td><td style="text-align: center;" colspan="2">아담 [kingma2014adam]</td></tr></tbody></table></div>표 5 :모델 아키텍처에 대한 상세 정보와 학습 하이퍼파라미터 정보입니다.부록 B전체 벤치마크 곡선<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Xpcc/1ebfe7b206efb2a4374f138a09bcbbce64d8b282" class="txc-image" width="564" height="779" data-img-src="https://t1.daumcdn.net/cafeattach/1Xpcc/1ebfe7b206efb2a4374f138a09bcbbce64d8b282" data-origin-width="677" data-origin-height="935"></div>그림 8 :최근 1만 건의 사전 학습 벤치마크 곡선.부록 C토크나이저 압축 사례 연구<div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 100%;" border="1"><tbody><tr><td style="text-align: center;">계급</td><td style="text-align: center;">병합세다</td><td style="text-align: center;">정규화됨토큰</td><td style="text-align: center;">원본 토큰</td></tr><tr><td style="text-align: center;">1</td><td style="text-align: center;">163</td><td style="text-align: center;">'␣'</td><td style="text-align: justify;">'\t' , '\n' , '\r' , '␣' , '␣␣' , '\n\n' , '␣␣␣' , '␣\n' , …</td></tr><tr><td style="text-align: center;">2</td><td style="text-align: center;">54</td><td style="text-align: center;">'에이'</td><td style="text-align: justify;">'A' , 'a' , '␣a' , '␣A' , 'á' , 'ä' , ' ã ' , 'ą' , '␣à' , '␣å' , 'â' , …</td></tr><tr><td style="text-align: center;">3</td><td style="text-align: center;">40</td><td style="text-align: center;">'영형'</td><td style="text-align: justify;">'O' , 'o' , '␣o' , '␣O' , 'ó' , 'ö' , 'ô' , 'õ' , '' , 'ò' , …</td></tr><tr><td style="text-align: center;">4</td><td style="text-align: center;">35</td><td style="text-align: center;">'이자형'</td><td style="text-align: justify;">'E' , 'e' , '␣e' , '␣E' , 'é' , 'è' , '␣é' , 'ę' , 'ě' , 'ê' , …</td></tr><tr><td style="text-align: center;">5</td><td style="text-align: center;">30</td><td style="text-align: center;">'나'</td><td style="text-align: justify;">'I' , 'i' , '␣I' , '␣i' , 'í' , 'ì' , 'î' , 'ī' , 'ï' , …</td></tr></tbody></table></div>표 6:이 표는 토크나이저 압축률별 병합된 상위 5개 토큰을 보여주며 , 128k 토크나이저의 전체 압축률은 23.43%입니다.