|
|
우리는 계속피더하다그리고피행동각 FLOPs 예산 내에서 고정되어 모델들이 동일한 매개변수 개수와 토큰당 동일한 FLOPs를 갖도록 합니다. MoE의 경우,피행동상위권에 의해 결정됩니다.케이선정된 전문가의 매개변수가 기여하는 반면, 선정되지 않은 전문가의 매개변수는 기여합니다.피부족한Engram의 경우 토큰당 일정한 수의 슬롯만 가져오므로 임베딩 슬롯 수를 늘리면 비용이 증가합니다.피더하다토큰당 FLOPs를 증가시키지 않고.
배분 비율.
우리는 할당 비율을 정의합니다.ρ∈[0,1]교육부 전문가 역량에 할당된 비활성 매개변수 예산의 비율로 나타낸 것입니다.
| 피교육부(부족한)=ρ피부족한,피엔그램=(1−ρ)피부족한. | (7) |
직관적으로:
실험 프로토콜.
우리는 두 가지 컴퓨팅 환경에서 이러한 절충점을 평가하고 일정한 희소성 비율을 유지합니다.피더하다/피행동≈10두 설정 모두에서:
다른ρ우리는 라우팅된 전문가 수와 엔그램 임베딩 슬롯 수만 조정하여 해당 모델을 구축합니다. 모든 실행은 동일한 학습 파이프라인과 최적화 하이퍼파라미터를 사용합니다.
결과 및 분석.
그림 3 (왼쪽)은 검증 손실과 할당 비율 사이에 일관된 U자형 관계가 있음을 보여줍니다.ρ놀랍게도, 엔그램 모델은 순수 MoE 기준선과 유사한 성능을 달성합니다.ρ=100%교육부 예산 배정액이 단지 로 줄어들더라도ρ≈40%(즉, 57억 모델에는 총 46명의 전문가, 99억 모델에는 총 43명의 전문가가 필요합니다.) 또한, 순수 MoE 기준선은 최적의 결과를 제공하지 못하는 것으로 나타났습니다. 대략적인 재분배를 통해20%–25%Engram에 대한 희소 매개변수 예산이 최상의 성능을 제공합니다. 정량적으로, 10B 영역에서 (기음=6×1020), 검증 손실은 다음과 같이 개선됩니다.1.7248(에ρ=100%) 에게1.7109최적점에 가까운ρ≈80%(Δ=0.0139결정적으로, 이 최적점의 위치는 체제 전반에 걸쳐 안정적입니다.ρ≈75%–80%이는 (고정된 희소성 조건 하에서) 조사된 모든 규모에 걸쳐 강력한 할당 선호도를 시사합니다. 이러한 U자형 패턴은 두 모듈 간의 구조적 상호보완성을 확인시켜 줍니다.
3.2무한 기억 체제 하의 엔그램
3.1절 에서는 고정된 매개변수 예산 하에서 할당을 최적화했습니다. 이제 그와 상반되는 설정인 공격적인 메모리 확장을 살펴보겠습니다. 이 연구는 2.5절 에서 자세히 설명한 Engram의 고유한 기능, 즉 스토리지와 컴퓨팅을 분리하는 능력에서 비롯되었습니다 .
실험 프로토콜.
당사는 고정 MoE 백본을 활용합니다.피더하다≈3비와피행동=568M은 수렴을 보장하기 위해 1000억 개의 토큰에 대해 학습되었습니다. 이 백본 위에 엔그램 테이블을 연결하고 슬롯 수를 스캔합니다.중~에서2.58×105에게1.0×107(합계는 다음과 같습니다)≈13(수십억 개의 매개변수). 기준선으로는 OverEncoding과 비교합니다 .황2025이상] , 통합하는N어휘 임베딩과의 평균화를 통한 -gram 임베딩. 우리는 SCONE과 같은 다른 연구에서는 다음과 같은 점을 지적합니다 .yu2025스케일링또한 대규모 임베딩을 조사하지만, 주로 추론에 초점을 맞추고 추가 모듈( f-gram 모델 )과 추가 학습 FLOP를 포함하므로 본 연구의 엄격한 등가 계산 제약 조건과 호환되지 않습니다.
결과.
그림 3 (오른쪽)은 메모리 슬롯 수를 늘리면 검증 손실이 명확하고 일관되게 개선됨을 보여줍니다. 탐색된 범위 전체에 걸쳐 곡선은 엄격한 멱법칙(로그 공간에서 선형)을 따르며, 이는 Engram이 예측 가능한 확장성 조절 기능을 제공함을 나타냅니다. 즉, 더 큰 메모리를 사용해도 추가적인 계산 없이 성능 향상이 지속됩니다. 확장 효율성 측면에서 중요한 점은 OverEncoding의 직접 평균화 방식이 더 큰 메모리 테이블에서 이점을 얻는 반면, Engram은 동일한 메모리 예산에서 훨씬 더 큰 확장 잠재력을 발휘한다는 것입니다. 3.1절의 할당 법칙과 함께 이러한 결과는 조건부 메모리가 MoE의 조건부 계산을 보완하는 확장 가능한 희소 용량의 독립적인 축 역할을 한다는 것을 입증합니다.
4대규모 사전 훈련표 1 :밀집형, MoE, Engram 모델 간의 사전 학습 성능 비교 . 모든 모델은 2620억 개의 토큰으로 학습되었으며 활성화된 매개변수(38억 개)가 일치합니다. Engram-27B는 라우팅된 전문가(72개)로부터 매개변수를 재할당하여 MoE-27B와 동일한 매개변수를 갖도록 조정되었습니다.→55) 5.7B 파라미터의 Engram 메모리로. Engram-40B는 활성화 파라미터 예산을 고정한 상태에서 Engram 메모리를 18.5B 파라미터로 더욱 증가시킵니다. 전체 훈련 시간 벤치마크 궤적은 부록 B 에 보고되어 있습니다 .
| 벤치마크 (지표) | #샷 | 밀도-4B | MoE-27B | 엔그램-27B | 엔그램-40B | |
| # 총 매개변수 수 | 4.1B | 26.7B | 26.7B | 39.5B | ||
| # 활성화됨 (토큰 삽입 없음) | 3.8B | 3.8B | 3.8B | 3.8B | ||
| # 학습된 토큰 | 262B | 262B | 262B | 262B | ||
| # 전문가 (공유 + 라우팅, 최상위-)케이) | - | 2+72(상위 6개) | 2+55(상위 6개) | 2+55(상위 6개) | ||
| # 엔그램 매개변수 | - | - | 5.7B | 18.5B | ||
| 언어모델링 | 더미 (손실) | - | 2.091 | 1.960 | 1.950 | 1.942 |
| 검증 세트 (손실) | - | 1.768 | 1.634 | 1.622 | 1.610 | |
| 지식&추리 | MMLU (가용성) | 5발 | 48.6 | 57.4 | 60.4 | 60.6 |
| MMLU-Redux (가용성) | 5발 | 50.7 | 60.6 | 64.0 | 64.5 | |
| MMLU-Pro (가상) | 5발 | 21.1 | 28.3 | 30.1 | 31.3 | |
| CMMLU (가용성) | 5발 | 47.9 | 57.9 | 61.9 | 63.4 | |
| C-Eval (Acc.) | 5발 | 46.9 | 58.0 | 62.7 | 63.3 | |
| AGIEval (Acc.) | 0샷 | 29.1 | 38.6 | 41.8 | 45.9 | |
| ARC-Easy (액세서리) | 25발 | 76.8 | 86.5 | 89.0 | 90.1 | |
| ARC-챌린지 (Acc.) | 25발 | 59.3 | 70.1 | 73.8 | 76.4 | |
| 트리비아QA (EM) | 5발 | 33.0 | 48.8 | 50.7 | 51.8 | |
| 트리비아QA-ZH (EM) | 5발 | 62.8 | 74.8 | 76.3 | 77.9 | |
| 팝QA (EM) | 15발 | 15.1 | 19.2 | 19.4 | 21.2 | |
| CCPM (가용성) | 0샷 | 72.2 | 79.6 | 87.1 | 87.7 | |
| BBH (EM) | 3샷 | 42.8 | 50.9 | 55.9 | 57.5 | |
| 헬라스웨그 (Account.) | 0샷 | 64.3 | 71.8 | 72.7 | 73.1 | |
| PIQA (Acc.) | 0샷 | 63.8 | 71.9 | 73.5 | 76.5 | |
| 위노그란데 (Acc.) | 5발 | 64.0 | 67.6 | 67.8 | 68.1 | |
| 독서이해력 | 드롭 (F1) | 원샷 | 41.6 | 55.7 | 59.0 | 60.7 |
| RACE-중간 (Acc.) | 5발 | 72.4 | 80.9 | 82.8 | 83.3 | |
| RACE-High (가속) | 5발 | 66.0 | 75.4 | 78.2 | 79.2 | |
| C3 (가해) | 0샷 | 57.7 | 60.1 | 63.6 | 61.8 | |
| 코드와 수학 | HumanEval (Pass@1) | 0샷 | 26.8 | 37.8 | 40.8 | 38.4 |
| MBPP (Pass@1) | 3샷 | 35.4 | 46.6 | 48.2 | 46.2 | |
| CruxEval-i (EM) | 0샷 | 27.6 | 30.7 | 32.2 | 36.2 | |
| CruxEval-o (EM) | 0샷 | 28.7 | 34.1 | 35.0 | 35.3 | |
| GSM8K (EM) | 8발 | 35.5 | 58.4 | 60.6 | 62.6 | |
| MGSM (EM) | 8발 | 27.0 | 46.8 | 49.4 | 52.4 | |
| 수학 (EM) | 4발 | 15.2 | 28.3 | 30.7 | 30.6 |
본 연구에서는 제안된 Engram 아키텍처와 경험적으로 도출된 할당 법칙을 이용하여 Engram을 수십억 개의 파라미터 규모로 확장하고, 실제 언어 모델 사전 학습에서의 효율성을 검증하고자 합니다. 구체적으로, (1) Dense-4B (총 파라미터 41억 개), (2) MoE-27B (총 파라미터 2,67억 개), (3) Engram-27B (총 파라미터 2,67억 개), (4) Engram-40B (총 파라미터 3,95억 개)의 네 가지 모델을 학습시켰습니다. 모든 모델은 동일한 데이터 커리큘럼(동일한 토큰 예산 및 순서)을 사용하여 학습되었으며, 활성화된 파라미터의 개수는 엄격하게 일치하도록 설정되었습니다.
4.1실험 장치 구성학습 데이터 및 모델 구성
모든 모델은 2,620억 개의 토큰으로 구성된 코퍼스에서 사전 학습되었으며, DeepSeek-v3의 토크나이저를 사용합니다 .liu2024deepseek어휘 크기는 128k입니다 . 모델링 시, 통제된 비교를 보장하기 위해 명시적으로 달리 언급되지 않는 한 모든 모델에서 일관된 기본 설정을 준수합니다. 은닉층 크기가 2560인 30블록 트랜스포머를 사용합니다. 각 블록은 멀티헤드 잠재 어텐션(MLA)을 통합합니다 .deepseekai2024deepseekv2strongeconomicalefficient] 32개의 헤드를 가지고 있으며 mHC를 통해 FFN에 연결됩니다 .xie2025mhcmanifoldconstrainedhyperconnections] 확장률이 4입니다. 모든 모델은 Muon을 사용하여 최적화되었습니다 .조던2024뮤온,팀2025키미자세한 하이퍼파라미터는 부록 A에 나열되어 있습니다 . 우리 는 네 가지 서로 다른 모델을 구현했습니다.
평가 프로토콜
저희는 언어 모델링, 지식, 추론, 독해, 코드/수학 등 다양한 분야의 벤치마크를 사용하여 모델을 평가합니다. 각 벤치마크에 대해 표준 프롬프트 프로토콜과 평가 지표를 따릅니다.
4.2실험 결과
표 1은 주요 결과를 요약합니다. 첫째, 기존 문헌과 일관되게 [샤지어2017터무니없이,he2024믹스,borgeaud2022개선희소 아키텍처는 밀집 모델에 비해 우수한 확장성을 보여줍니다. 동일한 학습 컴퓨팅 예산에서 세 가지 희소 변형(MoE-27B, Engram-27B/40B) 모두 모든 벤치마크에서 동일한 FLOPs 값을 갖는 Dense-4B 기준 모델보다 훨씬 뛰어난 성능을 보였습니다.
더욱 중요한 것은 Engram-27B가 동일 파라미터 및 동일 FLOPs의 MoE-27B 기준 모델 대비 지속적으로 향상된 성능을 보인다는 점입니다. 흥미롭게도 이러한 성능 향상은 메모리 용량이 직관적으로 유리한 지식 집약적 작업(예: MMLU: +3.0, MMLU-Pro: +1.8, CMMLU: +4.0)에만 국한되지 않습니다. 일반 추론 영역(예: BBH: +5.0, ARC-Challenge: +3.7, DROP: +3.3)은 물론 코드 및 수학적 추론 영역(예: HumanEval: +3.0, MBPP: +1.6, GSM8K: +2.2, MATH: +2.4)에서도 훨씬 더 큰 성능 향상을 확인할 수 있습니다. 벤치마크 데이터의 노이즈 영향을 줄이고 학습 과정을 시각화하기 위해 부록 B 에 사전 학습 기간 동안의 전체 벤치마크 궤적을 제공합니다 . 이러한 결과는 전용 지식 조회 기본 요소를 도입하면 전체 희소 예산을 조건부 계산에 할당하는 것보다 표현 효율성이 향상된다는 우리의 가설을 뒷받침합니다.
마지막으로, Engram-40B로 확장하면 사전 학습 손실이 더욱 감소하고 대부분의 벤치마크에서 성능이 향상됩니다. 모든 작업에서 Engram-27B를 완전히 능가하지는 않지만, 이는 학습 부족으로 인한 결과일 가능성이 높습니다. Engram-40B와 기준 모델 간의 학습 손실 격차가 학습 후반부로 갈수록 계속 벌어지는 것을 관찰했는데, 이는 확장된 메모리 용량이 현재 토큰 예산 내에서 아직 완전히 포화되지 않았음을 시사합니다.
표 2 : 장기 컨텍스트 성능 비교. 괄호 안의 값(예: (50k, 1.62) )은 장기 컨텍스트 확장 전의 사전 학습 단계와 해당 손실을 나타냅니다. 두 가지 주요 결과: (1) 사전 학습 FLOP의 82%(41k 대 50k)만으로도 Engram-27B는 기준선의 LongPPL과 동일한 성능을 보입니다 .팡그롱] RULER에서 훨씬 더 높은 정확도를 달성하면서 성능을 향상시켰습니다 .셰흐룰러( 2) iso-pretraining-loss(46k) 및 iso-pretraining-FLOPs(50k) 설정 모두에서 Engram-27B는 모든 지표에서 기준 모델보다 훨씬 우수한 성능을 보였습니다. 굵은 글씨는 최상의 결과를 나타냅니다 .밑줄두 번째.
| 모델 | 롱PPL(32k) | 자 (32k) | ||||||||||
| 당혹감 (↓) | NIAH 정확도(↑) | 기타 작업(↑) | ||||||||||
| 책 | 종이 | 암호 | 엘코티 | 에스 | MK | MV | MQ | VT | CWE | FWE | QA | |
| MoE-27B (50k, 1.63) | 4.38 | 2.91 | 2.49 | 14.16 | 100.0 | 88.0 | 92.7 | 84.2 | 77.0 | 4.5 | 73.0 | 34.5 |
| 엔그램-27B (41k, 1.66) | 4.37 | 2.92 | 2.50 | 14.26 | 99.6 | 88.3 | 93.0 | 89.5 | 83.2 | 3.8 | 99.6 | 44.0 |
| 엔그램-27B (46k, 1.63) | 4.19 | 2.84 | 2.45 | 13.59 | 97.6 | 89.0 | 95.5 | 97.0 | 87.2 | 4.3 | 98.6 | 37.5 |
| 엔그램-27B (50k, 1.62) | 4.14 | 2.82 | 2.44 | 13.41 | 99.3 | 89.3 | 96.5 | 97.0 | 89.0 | 5.9 | 99.3 | 40.5 |
5장기 맥락 훈련
엔그램 아키텍처는 로컬 의존성 모델링을 정적 조회로 오프로드함으로써 전역 컨텍스트 관리를 위한 귀중한 주의 용량을 보존합니다. 이 섹션에서는 장기 컨텍스트 확장 훈련을 수행하여 이러한 구조적 이점을 실증적으로 검증합니다 .가오2025기차,펭2023얀아키텍처적 기여도 를 기본 모델 기능과 분리하는 엄격한 평가 프로토콜을 통해, Engram이 장거리 검색 및 추론 작업에서 상당한 성능 향상을 가져온다는 것을 입증합니다.
5.1실험 장치 구성교육 세부 정보.
장기 컨텍스트 기능을 구현하기 위해 DeepSeek-V3에서 도입된 컨텍스트 확장 전략을 채택합니다 .liu2024deepseek사전 학습 단계를 거친 후 YaRN을 적용 합니다 .펭2023얀32768개 토큰으로 구성된 컨텍스트 학습 단계에서 5000단계(300억 토큰의 고품질 장문 컨텍스트 데이터) 동안 컨텍스트 윈도우 확장을 위한 하이퍼파라미터입니다 .에스=10,알파=1,β=32그리고 스케일링 계수에프=0.707.
모델 구성.
본 연구에서는 네 가지 모델 구성에 걸쳐 컨텍스트 확장 성능을 비교합니다. MoE-27B와 Engram-27B 모두에 대해 최종 사전 학습 체크포인트(50,000 스텝)를 사용했습니다. 또한, 아키텍처 효율성을 엄격하게 벤치마킹하기 위해 Engram-27B의 경우 41,000 스텝과 46,000 스텝의 중간 체크포인트 두 개를 선택했습니다. 초기화 단계는 다르지만, 모든 변형 모델은 동일한 컨텍스트 확장 학습 프로토콜을 거칩니다. 특히, Engram-27B(46,000 스텝)를 선택한 이유는 완전히 학습된 MoE-27B(50,000 스텝)와 동일한 사전 학습 손실을 보이기 때문입니다. 이를 통해 "Iso-Loss" 설정을 제어하여 컨텍스트 확장 중 발생하는 성능 차이가 모델의 초기 품질이 아닌 아키텍처 때문임을 확인할 수 있습니다.
평가 기준.
LongPPL을 사용하여 장기 컨텍스트 성능을 평가합니다 .팡그롱] 및 자 [셰흐룰러LongPPL의 경우, 장문 의 책, 연구 논문, 코드 저장소, 그리고 긴 사고 과정(CoT) 궤적의 네 가지 범주에 걸쳐 평가 세트를 구성합니다. RULER의 경우, 단일 키(S), 다중 키(MK), 다중 값(MV), 다중 쿼리(MQ) 니들 인 어 헤이스택, 다중 홉 변수 추적(VT), 공통 단어 추출(CWE), 빈번한 단어 추출(FWE), 그리고 질문 답변(QA)의 8개 범주로 집계된 14개의 하위 집합에 대해 평가를 수행합니다.
5.2실험 결과
평가 결과는 표 2 에 요약되어 있습니다 . 엔그램 아키텍처의 기여도를 정확하게 평가하기 위해 본 분석은 두 단계로 진행됩니다. 첫째, 기본 모델 기능의 영향을 아키텍처 설계와 분리하고, 둘째, 통제된 분석을 수행합니다.
1. 주의 메커니즘을 뛰어넘는 장기 맥락 처리 능력. 주의 메커니즘과 위치 인코딩은 맥락 처리를 위한 구조적 기반을 제공하지만 [su2023roformerenhancedtransformerrotary,press2021train,양2025경로,샤오2023효율적인] , 우리의 결과는 장기 컨텍스트 성능이 아키텍처 사전 정보에 의해서만 결정되는 것은 아니라는 것을 보여줍니다. Engram(41k)의 궤적을 관찰하면→(50k) 데이터셋을 분석한 결과, 동일한 모델 아키텍처와 컨텍스트 확장 단계에서의 고정된 계산 예산을 유지한 경우에도 사전 학습이 진행됨에 따라 장기 컨텍스트 성능이 단조롭게 향상되는 것을 확인했습니다. 이는 장기 컨텍스트 성능이 기본 모델의 전반적인 모델링 능력과 본질적으로 연관되어 있음을 시사합니다. 따라서, 엄밀한 아키텍처 비교를 위해서는 단순히 학습 단계를 일치시키는 것이 아니라 기본 모델의 손실 함수를 일치시켜 이러한 교란 변수를 제어해야 합니다.
2. 통제된 환경에서의 아키텍처적 우월성. 위의 원칙에 따라 Engram을 MoE 기준선과 비교 평가했습니다. 기본 기능을 통제했을 때 Engram 모듈의 효율성 향상이 분명하게 드러납니다.
그림 4 :표현 정렬 및 수렴 속도 분석. (a) LogitLens를 이용한 계층별 KL 발산 [nostalgebraist2020logitlens초기 레이어에서 일관되게 낮은 발산은 엔그램이 예측 수렴을 가속화함을 나타냅니다. (bc) CKA로 계산된 유사도 히트 맵kornblith2019 유사성높은 유사성을 나타내는 대각선의 뚜렷한 상향 이동은 Engram의 얕은 레이어가 MoE 모델의 더 깊은 레이어와 기능적으로 동일하며, 결과적으로 모델의 깊이를 효과적으로 증가시킨다는 것을 보여줍니다 .표 3: 엔티티 해석 예시는 다음에서 재현되었습니다. 간데하리운2024패치스코프이 표는 LLM이 어텐션 및 FFN 계층을 통해 컨텍스트 토큰을 점진적으로 통합하여 엔티티( "다이애나, 웨일즈 공주") 의 내부 표현을 구성하는 방식을 보여줍니다. "잠재 상태 변환" 열에는 PatchScope 에서 마지막 토큰인 "웨일즈" 에 대해 자동으로 생성된 텍스트가 표시됩니다.간데하리운2024패치스코프] 열에는 원저자가 제공한 수동 해석이 제시되어 있습니다.
| 층 | 잠재상태 번역 | 설명 |
| 1-2 | : 영국 내 국가 | 웨일스 |
| 3 | : 유럽의 국가 | 웨일스 |
| 4 | : 여성 군주가 스스로 또는 왕비의 배우자로서 보유하는 칭호 | 웨일즈 공주 (구체적인 명칭 없음) |
| 5 | 웨일스 왕자(훗날 왕)의 아내에게 주어지는 칭호 | 웨일즈 공주 (구체적인 명칭 없음) |
| 6 | 다이애나 왕세자비(1961-1997)는 찰스 왕세자의 첫 번째 부인으로, 아름다운 외모와 인도주의 활동으로 유명했습니다. | 다이애나,웨일즈 공주 |
6분석
이 섹션에서는 엔그램의 내부 메커니즘, 특히 유효 깊이( 섹션 6.1 ), 핵심 모듈 설계( 섹션 6.2 ) 및 매개변수 민감도( 섹션 6.3 )를 조사합니다. 또한 오프로딩을 통한 추론 처리량을 평가하고( 섹션 6.4 ), 사례 연구로 마무리합니다( 섹션 6.5 ).
6.1엔그램은 모델의 깊이를 증가시키는 것과 기능적으로 동일한가요?
현재의 LLM은 전용 지식 조회 기본 요소가 부족하고, 기억 회상을 시뮬레이션하기 위해 계산에 의존합니다. 표 3 에서 볼 수 있듯이, "다이애나 왕세자비"라는 개체를 인식하기 위해 LLM은 특징을 점진적으로 구성하기 위해 여러 층의 어텐션과 FFN을 사용해야 합니다 .li2025echoesbertmodernlanguage,간데하리운2024패치스코프,DBLP:conf/coling/JinYHZWH0MMDYDZ25이는 이론적으로 지식 조회 작업을 통해 식별될 수 있는 프로세스입니다.
이를 바탕으로, Engram은 모델에 명시적인 지식 조회 기능을 부여함으로써, 모델의 초기 특징 구성 단계를 완화하여 모델 깊이 증가를 효과적으로 모방한다고 가정합니다. 이 가설을 검증하기 위해 두 가지 기계론적 해석 가능성 도구인 LogitLens를 사용합니다 .nostalgebraist2020logitlens,belrose2023유발] 및 중심 커널 정렬 분석(CKA) [kornblith2019 유사성,다바리2022신뢰성] .
6.1.1가속 예측 수렴
먼저 LogitLens를 사용하여 레이어별 예측값의 변화를 분석합니다 .nostalgebraist2020logitlens각 중간 계층의 은닉 상태를 최종 LM 헤드에 투영함으로써 쿨백-라이블러 발산을 계산 합니다 .kullback1951정보중간 출력 분포와 모델의 최종 출력 분포 사이의 차이를 나타냅니다. 이 지표는 잠재 표현이 "예측 준비 완료" 상태에 얼마나 가까운지를 정량화 합니다 .csordas2025언어,belrose2023유발] .
그림 4 (a)는 계층별 KL 발산을 나타냅니다. MoE 기준 모델과 비교했을 때, 두 가지 Engram 변형 모델 모두 체계적으로 더 작은 KL 발산을 보이며, 가장 두드러진 차이는 초기 블록에서 나타납니다. Engram 곡선의 가파른 하강은 모델이 특징 합성을 훨씬 빠르게 완료함을 의미합니다. 이러한 관찰 결과는 우리의 가설과 일치합니다. Engram은 외부 지식을 명시적으로 활용함으로써 필요한 계산 단계를 줄여 네트워크 계층 구조에서 더 일찍 높은 신뢰도의 유효한 예측을 도출할 수 있습니다.
6.1.2표현의 정렬과 효과적인 깊이
엔그램 레이어가 기준선의 더 깊은 레이어와 의미적으로 대응하는지 추가적으로 조사하기 위해, 표현 구조를 비교하는 데 널리 사용되는 측정 기준인 중심 커널 정렬(CKA)을 사용합니다 .kornblith2019 유사성,kriegeskorte2008대표적] . 두 가지 표현 집합이 주어졌을 때엑스그리고와이(예: 서로 다른 모델이나 레이어의 활성화) CKA는 다음과 같이 정의됩니다.
| CKA(케이,엘)=HSIC(케이,엘)HSIC(케이,케이)HSIC(엘,엘) | (8) |
어디케이=엑스엑스⊤그리고엘=와이와이⊤그램 행렬(선형 커널 사용)을 나타내고, HSIC는 힐베르트-슈미트 독립성 기준입니다 .그레튼2005 측정] . 우리는 HSIC의 편향되지 않은 추정량을 사용하는 미니배치 구현을 사용합니다 .다바리2022신뢰성] 그리고 Few-NERD 데이터셋에서 평가합니다 .딩2021퓨명명 된 엔티티의 마지막 토큰에 해당하는 숨겨진 상태를 추출합니다.
계층별 대응 관계를 엄밀하게 정량화하기 위해 먼저 쌍별 CKA 유사도 행렬을 계산합니다.에스∈[0,1]엘×엘, 어디엘는 레이어의 개수입니다. 그런 다음 소프트 정렬 인덱스를 도입합니다.에이j상위의 가중 중심점으로 정의됨케이각 엔그램 레이어에 대해 가장 유사한 MoE 레이어j:
| 에이j=∑나∈ℐj에스나,j⋅나∑나∈ℐj에스나,j,어디 ℐj=argtop케이나(에스나,j). | (9) |
여기,에스나,jMoE 레이어 간의 유사도 점수를 나타냅니다.나및 엔그램 레이어j인덱스에이j이는 엔그램 레이어에 해당하는 "유효 MoE 깊이"에 대한 강력한 대리 지표 역할을 합니다.j최고를 활용하여케이필터링(포함)케이=5) 유사도가 낮은 노이즈를 완화하기 위해.
그림 4 (b)-(c)는 유사도 히트맵에 소프트 정렬 곡선(흰색 점선)을 겹쳐 시각화한 것입니다. 대각선에서 뚜렷한 위쪽 이동이 관찰되는데, 이는 다음을 의미합니다.에이j>j다양한 층에 대해 그렇습니다. 예를 들어, Engram-27B의 5번째 층에서 형성된 표현은 MoE 기준선의 약 12번째 층의 표현과 가장 유사합니다.
LogitLens 결과( 섹션 6.1.1 ) 와 일치하는 일관된 비대각선 이동은 Engram이 초기 레이어에서 더 깊은 표현을 달성함을 확인시켜 줍니다. 이는 우리의 핵심 가설, 즉 명시적 조회를 통한 초기 단계 특징 합성 과정을 우회함으로써 Engram이 모델의 유효 깊이를 증가시키는 것과 기능적으로 동일하다는 가설을 입증합니다.
그림 5 : 아키텍처 제거 결과. 3B MoE 기준선을 두 가지 설정에서 엔그램 변형과 비교합니다. (1) 레이어 민감도(진한 파란색 곡선): 단일 엔그램 모듈의 삽입 깊이를 탐색한 결과 초기 주입(레이어 2)이 최적이며, 더 깊은 레이어에서는 효율성이 저하됨을 확인했습니다. (2) 구성 요소 제거(오른쪽 마커): 참조 구성에서 하위 모듈을 제거하면 다중 분기 통합, 토크나이저 압축 및 컨텍스트 인식 게이팅의 중요성을 보여줍니다.6.2구조적 절제 및 층 민감도
이 섹션에서는 제어된 환경에서 엔그램을 제거하여 각 핵심 모듈 설계의 효과를 조사합니다. 특별히 언급되지 않는 한, 기본 모델은 1000억 토큰으로 학습된 12계층 3B MoE 모델(활성화된 파라미터 0.56B개)입니다. 그림 5는 검증 손실을 나타냅니다. 주황색 점선은 3B MoE 기준선(검증 손실)을 나타냅니다.=1.808).
참조 구성.
우리는 1.6B개의 매개변수를 가진 고정된 엔그램 메모리를 사용하여 핵심 구조를 강화합니다. 우리의 참조 모델은 다음과 같습니다.{2,3}-그램과 삽입물은 2층과 6층에 엔그램을 삽입하여 가치 손실을 달성합니다.=1.768교육부 기준선 대비 상당한 개선Δ=0.04아래의 모든 구조적 절제술은 이 기준점을 기준으로 정의됩니다.
메모리를 어디에 주입해야 할까요?
깊이 민감도를 연구하기 위해, 우리는 엔그램 예산을 고정(1.6B)한 상태로 유지하면서 이를 단일 엔그램 모듈로 통합하고, 삽입 레이어를 1에서 12까지 변화시켰습니다( 그림 5 의 진한 파란색 "레이어 스윕" 곡선 ). 이 실험은 엔그램 배치에 내재된 상충 관계를 보여줍니다.
배치상의 절충. 엔그램을 초기에 주입하면 백본이 연산 깊이를 소모하기 전에 로컬 패턴 재구성을 처리할 수 있어 백본의 자연스러운 계층적 처리 방식과 일치합니다 .테니2019버트,간데하리운2024패치스코프,li2025echoesbertmodernlanguage,DBLP:conf/coling/JinYHZWH0MMDYDZ25하지만 이는 게이팅 정밀도 측면에서 대가를 치르게 됩니다. 초기 은닉 상태는 아직 어텐션을 통해 충분한 전역적 맥락 을 축적하지 못했고, 병렬 분기는 세밀한 변조에 필요한 표현적 다양성이 부족합니다 .xie2025mhcmanifoldconstrainedhyperconnections,zhu2025하이퍼커넥션따라서 최적의 배치를 위해서는 (i) 정적 로컬 패턴을 초기에 오프로딩하고 (ii) 나중에 게이팅을 위해 더 강력한 컨텍스트 쿼리를 활용하는 것 사이의 균형을 맞춰야 합니다.
스윕 결과 레이어 2가 가장 우수한 단일 레이어 성능(값 손실)을 달성한 것으로 나타났습니다.=1.770) 1층보다 우수한 성능을 보이며 삽입 지점이 깊어질수록 성능이 저하됩니다. 이는 한 번의 어텐션만으로도 의미 있는 맥락을 제공하기에 충분하다는 것을 나타냅니다.에티게이팅을 위한 것이면서도, 백본의 최하위 계층 로컬 집계를 대체할 수 있을 만큼 충분히 이른 시점에 작동합니다.
단일 주입 제약 조건 하에서는 레이어 2가 최적이지만, 동일한 1.6B 메모리를 두 개의 더 작은 모듈로 나누는 것(임베딩 차원을 줄임으로써 달성)이 더 효율적이라는 것을 발견했습니다.디메모리) 그리고 이들을 레이어 2와 6에 배치하면 성능이 훨씬 더 좋아집니다(값 손실).=1.768이러한 계층형 설계는 초기 개입과 풍부한 후기 단계 컨텍스트 게이팅을 결합하여 절충점을 조정합니다. 더욱 중요한 것은 계층형 삽입이 실질적인 시스템 이점을 제공하여 2.5절 에서 논의된 바와 같이 메모리 계층 구조를 더 잘 활용할 수 있도록 한다는 점입니다 .
어떤 구성 요소가 중요한가요?
참조 구성에서 시작하여, 엔그램 파라미터 예산을 고정한 상태로 개별 설계 선택 사항들을 하나씩 제거해 나갑니다. 결과는 그림 5 의 마커로 표시됩니다. 세 가지 구성 요소, 즉 (i) 다중 분기 백본 내의 분기별 융합, (ii) 컨텍스트 인식 게이팅, (iii) 토크나이저 압축이 가장 큰 성능 향상을 가져오는 것을 확인했습니다. 이 중 하나라도 제거하면 검증 손실이 가장 크게 감소합니다. 특히, "다중 분기 제거"의 경우, mHC 백본 구조는 유지하되 분기별 게이팅을 사전 매핑 후 은닉 상태에 적용되는 단일 엔그램 융합으로 대체합니다.ℋ피아르 자형이자형 [xie2025mhcmanifoldconstrainedhyperconnections] .
다른 변경 사항들은 영향이 미미합니다. 가벼운 깊이별 컨볼루션을 제거해도 성능 저하는 거의 없습니다. 16억의 고정된 예산 내에서 4그램 패턴에 용량을 할당하는 것은 약간 최적의 선택이 아닙니다. 이는 더 자주 나타나는 2/3그램 패턴의 용량을 희석시키기 때문일 가능성이 높지만, 고차 컨볼루션이 그 원인일 가능성도 배제할 수는 없습니다.N-그램은 더 큰 메모리 규모에서 유용해집니다.
6.3민감도 분석
그림 6 :엔그램 제거 후에도 성능이 유지됩니다. 사실적 지식은 엔그램 모듈에 크게 의존하는 반면, 독해력은 핵심 기억 구조에 의해 상당 부분 보존됩니다.
엔그램 모듈의 기능적 기여도를 규명하기 위해, 백본은 그대로 유지하면서 추론 과정에서 희소 임베딩 출력을 완전히 억제하는 방식으로 모델을 평가했습니다. 중요한 점은 이러한 사후 제거 과정이 학습-추론 간 불일치를 유발하여 복잡하고 다양한 능력을 요구하는 과제에서 노이즈를 발생시킬 가능성이 있다는 것입니다. 따라서 본 연구에서는 이러한 스트레스 테스트에서 가장 높은 신호 대 잡음비를 보이는 사실적 지식 과 독해력 , 즉 민감도 스펙트럼의 양극단에 해당하는 과제 분석을 우선적 으로 수행했습니다.
그림 6 에서 볼 수 있듯이 , 결과는 뚜렷한 기능적 이분법을 보여줍니다. 사실적 지식 벤치마크는 심각한 성능 저하를 겪으며 원래 성능의 29~44%만 유지했습니다(예: TriviaQA 29%). 이는 엔그램 모듈이 매개변수적 지식의 주요 저장소 역할을 한다는 것을 확인시켜 줍니다. 반대로, 독해 과제는 놀라울 정도로 회복력이 강해 81~93%의 성능을 유지했습니다(예: C3 93%). 이는 맥락 기반 과제가 엔그램보다는 백본의 어텐션 메커니즘에 주로 의존한다는 것을 시사합니다.
6.4시스템 효율성
Engram이 라우팅 기반 MoE에 비해 갖는 핵심적인 시스템적 이점은 희소한 활성화 요소들을 명시적이고 정적인 해시 ID로 처리한다는 점입니다. 이는 엄격하게 결정론적인 메모리 접근 패턴을 제공합니다. 토큰 시퀀스가 알려지면 다음 Engram 조회에 필요한 인덱스가 고정되고, 해당 레이어가 실행되기 전에 계산될 수 있습니다.
실험 장치 구성.
우리는 nano-vLLM 1 을 기반으로 하는 추론 도구를 구현했습니다.1https://github.com/GeeeekExplorer/nano-vllm—업계 표준 vLLM 엔진의 간소화된 프로토타입 [권2023효율적인MoE의 Expert Parallel에서 발생하는 복잡한 통신 패턴 없이 명확한 지연 시간 기준선을 얻기 위해 두 개의 고밀도 백본(Dense-4B 및 Dense-8B)에서 벤치마킹을 수행했습니다. 두 번째 Transformer 블록에 100B 파라미터를 가진 대규모 Engram 레이어를 삽입하고, 전체 임베딩 테이블을 호스트 DRAM에 상주시켰습니다. 추론 과정에서 시스템은 Engram 레이어에 필요한 임베딩을 비동기적으로 미리 가져와 PCIe 전송과 첫 번째 블록의 계산을 중첩시킵니다.
표 4 :종단 간 추론 처리량 . 1000억 개의 파라미터를 가진 엔그램 레이어를 호스트 메모리로 완전히 오프로드하여 추론 처리량을 측정했습니다.
| 실험 장치 구성 | ||
| 하드웨어 | NVIDIA H800 | |
| 업무량 | 512 시퀀스 | |
| 시퀀스 길이 | 제복(100,1024) | |
| 처리량 결과 | ||
| 기본 모델 | 구성 | 처리량(tok/s) |
| 4B-밀집형 | 기준선 | 9,031.62 |
| + 100B 엔그램(CPU 오프로드) | 8,858.28 | |
| 8B-밀집 | 기준선 | 6,315.52 |
| + 100B 엔그램(CPU 오프로드) | 6,140.02 | |
결과.
표 4 에 자세히 설명된 바와 같이 , 100B 파라미터 임베딩 테이블을 오프로딩하는 것은 처리량 측면에서 무시할 만한 수준의 손실만 발생시키며, 최대 손실은 단지 몇 퍼센트에 불과합니다.2.8%8B 백본에서 이러한 결과가 나왔습니다. 이는 초기 밀집 블록의 연산 강도가 검색 지연 시간을 감출 수 있는 충분한 시간적 여유를 제공한다는 것을 확인시켜 줍니다. 특히, 단계별 유효 통신량은 전체 임베딩 테이블 크기가 아니라 활성화된 슬롯 수에 비례하여 증가합니다.
무엇보다 중요한 것은 이 실험이 보수적인 기준선 역할을 한다는 점입니다. 2.5절의 계층적 설계는 지프 지역성을 활용하여 HBM에 자주 사용되는 항목을 캐싱하지만, 본 실험 설정에서는 모든 검색이 호스트 메모리에서 PCIe 버스를 거쳐 이루어지도록 했습니다. 이러한 기준선 검색 전략에서 최소한의 오버헤드만 발생한다는 사실은 지역성을 고려한 최적화된 구현에서도 처리량 손실이 미미할 것임을 강력하게 시사합니다.
6.5사례 연구: 게이팅 시각화
섹션 2.3 에서는 검색된 정적 메모리를 백본에 통합하는 방식을 동적으로 조절하도록 설계된 컨텍스트 인식 게이팅 메커니즘을 소개했습니다. Engram이 의도한 대로 작동하는지 실증적으로 검증하기 위해 게이팅 스칼라를 시각화했습니다.알파티엔그램-27B 22아키텍처 설정에서 자세히 설명했듯이, 이 모델은 mHC를 활용합니다.중=4이 모델은 2번 레이어와 15번 레이어에 엔그램 모듈을 삽입하여, 주어진 토큰에 대해 총 8개의 서로 다른 게이팅 스칼라 값을 계산합니다. 모든 분기가 해석 가능한 활성화 패턴을 나타내는 것은 아니라는 점을 확인할 수 있습니다. 시각화의 명확성을 위해 의미 패턴 일치와 가장 강한 상관관계를 보이는 게이팅 값들을 선택하여 표시했습니다.그림 7 의 다양한 샘플에 걸쳐 .
결과는 뚜렷한 선택성 패턴을 보여줍니다. 게이팅 메커니즘은 국소적이고 정적인 패턴을 완료할 때 일관되게 활성화됩니다(빨간색으로 표시). 영어에서는 "Alexander the Great", "the Milky Way"와 같은 다중 토큰 명사와 "By the way", "Princess of Wales"와 같은 관용구에서 강한 활성화가 관찰됩니다. 이러한 동작은 여러 언어에 걸쳐 효과적으로 일반화됩니다. 중국어 예시에서는 Engram이 "四大发明", "张仲景" 와 같은 뚜렷한 관용 표현과 역사적 인물을 식별하고 검색합니다 . 이러한 정성적 결과는 Engram이 정형화된 언어적 의존성을 성공적으로 식별하고 처리하여 Transformer 백본이 이러한 정적 연관성을 암기해야 하는 부담을 효과적으로 덜어준다는 것을 확인시켜 줍니다.
그림 7 : 엔그램의 게이팅 메커니즘 시각화. 히트맵의 강도는 게이팅 스칼라의 크기에 해당합니다.알파티∈[0,1]여기서 붉은색이 진할수록 활성화 정도가 강함을 나타냅니다. 엔그램은 접미사에 작용하기 때문입니다.N-그램(여기)N=3특정 토큰에 대한 높은 활성화엑스티앞선 토큰들이 해당 토큰으로 이어지는 것을 의미합니다(예: 로 끝나는 구문).티)는 메모리에서 효과적으로 불러올 수 있는 정적 패턴으로 인식됩니다.7관련 작업N-그램 모델링 및 임베딩 스케일링.
섀넌의 틀에서 유래함 [shannon1948수학] ,N-gram 모델은 토큰을 예측하기 위해 로컬 기록에 의존하며, 전통적으로 평활화 기법을 사용합니다 .kneser1995개선됨,DBLP:저널/tsp/Katz87데이터 희소성 을 완화하기 위해. 신경망 아키텍처로의 패러다임 전환에도 불구하고 [bengio2003neural장거리 의존성을 포착하기 위한 계산 효율성N-gram 조회는 FastText와 같은 선구적인 연구에서 볼 수 있듯이 현대 표현 학습에서 보존되어 왔습니다 .보야노프스키2017enriching] .
최근 이러한 패러다임은 임베딩 스케일링 이라는 이름으로 다시 부상했습니다 . 레이어별 임베딩과 같은 아키텍처는 [젬마_3n_2025] 및 DeepEmbed [rwkv_deepembed_wiki_2025대규모 테이블을 통해 용량을 확장하는 것은 우리 접근 방식과 가장 관련성이 높은 선구적인 연구 분야로, 구성 요소를 통합합니다.N-gram 구조를 표현 공간에 직접 삽입합니다. SuperBPE [류2025슈퍼브페] 그리고 스콘 [yu2025스케일링] 명시적으로 고빈도 패턴을 대상으로 합니다. 전자는 여러 단어로 이루어진 표현을 "슈퍼워드" 토큰으로 병합하는 방식이고, 후자는 보조 인코딩 모델을 사용하는 방식입니다. 이와 병행하여 OverEncoding [황2025이상] 및 바이트 잠재 변환기(BLT) [파그노니2025바이트] 해시를 채택합니다N-gram 임베딩을 사용하여 토큰 및 바이트 수준에서 각각 로컬 종속성을 포착합니다. 이러한 연구들은 종합적으로 스케일링 매개변수의 효율성을 입증합니다.N최소한의 계산 오버헤드로 -gram 표현을 구현합니다. 이러한 접근 방식들은 각각의 환경에서 상당한 이점을 제공하지만, 우리의 연구는 두 가지 핵심적인 측면에서 근본적으로 다릅니다.
전문가들의 조합.
MoE 아키텍처는 토큰당 소수의 전문가 하위 집합을 조건부로 활성화함으로써 모델 용량과 계산 비용을 분리합니다. 이는 다음에서 소개된 패러다임입니다.샤지어2017터무니없이GShard와 같은 후속 혁신 기술들 [레피킨2020gshard] , BASE [pmlr-v139-lewis21a] , 스위치 트랜스포머 [fedus2022스위치] 및 GLaM [듀2022글램] 는 일정한 추론 비용을 유지하면서 초선형 파라미터 스케일링을 가능하게 했습니다. 최근에는 DeepSeek-MoE [dai2024deepseekmoe] 는 세밀한 전문가 분할 및 공유 전문가 격리를 통해 동일한 활성 매개변수를 가진 밀집 모델보다 훨씬 뛰어난 효율성을 보여주었습니다. 이 아키텍처를 채택하여 DeepSeek- V3 와 같은 최첨단 모델이liu2024deepseek] 및 키미-k2 [팀2025키미] 는 전체 매개변수의 규모를 수천억 개까지 더욱 확장했습니다.
메모리 네트워크.
메모리 증강 네트워크에 대한 연구는 계산 비용의 비례적인 증가 없이 모델 용량을 확장하는 것을 목표로 하며, 크게 매개변수적 접근 방식과 비매개변수적 접근 방식으로 분류됩니다. PKM과 같은 매개변수적 메모리 방법은 [램플2019대형] , 또래 [he2024믹스] , 자아 [cheng2023리프트] , 메모리+ [베르게스2024메모리] 및 UltraMem [황2024울트라,황2025울트라엠브2대규모의 희소 키-값 저장소를 모델 계층에 직접 통합하여 FLOPs에 거의 영향을 주지 않으면서 용량을 크게 늘립니다. 반대로 REALM과 같은 비매개변수 메모리 접근 방식 은 [guu2020 검색] , 레트로 [borgeaud2022개선,왕2023샬] 및 PlugLM [cheng2023decouple지식 저장과 모델 처리를 분리 하고 , 외부 메모리를 편집 및 확장이 가능한 키-값 저장소로 취급하여 모델이 재학습 없이 변화하는 정보에 적응할 수 있도록 합니다.
지식 저장 메커니즘.
용량 확장과 병행하여, 상당한 연구가 트랜스포머가 사실적 지식을 인코딩하고 검색하는 방식을 지배하는 내부 메커니즘을 면밀히 조사해 왔습니다. 피드포워드 네트워크(FFN)는 키-값 메모리처럼 기능한다는 가설이 널리 받아들여지고 있습니다 .게바2021트랜스포머이 프레임워크에서 첫 번째 계층은 패턴 탐지기("키") 역할을 하고, 두 번째 계층은 특정 정보를 잔여 스트림("값")에 투영합니다. 이러한 모듈성은 서로 다른 사실을 저장하는 특정 "지식 뉴런"의 식별을 통해 입증 됩니다 .다이2022지식] . 사실적 회상의 정보 흐름을 특정 FFN 계층에 매핑하는 인과 추적 방법론을 통해 추가적인 검증이 이루어집니다 .meng2022위치이러한 통찰력 덕분에 ROME 과 같은 정밀한 모델 편집 알고리즘이 가능해졌습니다 .meng2022위치] 및 MEMIT [멩2022매스] , 이는 재학습 없이 사실적 연관성을 직접 업데이트할 수 있도록 합니다. 또한, Othello-GPT와 같은 내부 표현에 대한 연구도 진행되었습니다 .li2024emergentworldrepresentations탐구이러한 저장 메커니즘은 단순한 통계적 암기 가 아닌 구조화된 "세계 모델"의 출현을 촉진할 수 있음을 시사합니다.
8결론
본 연구에서는 기존의 조건부 연산 패러다임(MoE)에 보완적인 희소성 축으로서 조건부 메모리를 도입하여 , 동적 연산을 통한 지식 검색 시뮬레이션의 비효율성을 해결하고자 합니다. 본 연구에서는 고전적인 방식을 현대화한 모듈인 엔그램을 통해 이 개념을 구체화합니다.N확장 가능하고 상수 시간으로 작동하는 -gram 임베딩영형(1)정적 패턴에 대한 조회
희소성 할당 문제를 공식화함으로써 U자형 스케일링 법칙을 발견했으며, 이를 통해 MoE 전문가와 엔그램 메모리 간의 희소 용량 하이브리드 할당이 순수 MoE 기준 모델보다 월등히 우수함을 입증했습니다. 이 법칙에 따라 엔그램을 270억 개의 파라미터로 확장하여 다양한 영역에서 탁월한 성능을 달성했습니다. 특히, 메모리 모듈이 직관적으로 지식 검색을 지원하는 것은 물론, 일반 추론, 코드 작성, 수학 문제 해결에서도 훨씬 더 큰 성능 향상을 확인했습니다.
본 연구의 기계론적 분석에 따르면, Engram은 초기 계층에서 정적 재구성 작업을 제거함으로써 네트워크를 효과적으로 "심화"시키고, 이를 통해 전역적 맥락과 복잡한 추론에 집중할 수 있는 주의 용량을 확보합니다. 이러한 아키텍처적 변화는 LongPPL 및 RULER 성능 향상에서 입증된 바와 같이 장기 맥락 처리 능력의 상당한 개선으로 이어집니다. 또한 Engram은 인프라를 고려한 효율성을 최우선 설계 원칙으로 삼습니다. 결정론적 주소 지정 방식을 통해 스토리지와 컴퓨팅을 분리하여 방대한 파라미터 테이블을 호스트 메모리로 오프로드할 때 추론 오버헤드를 최소화할 수 있습니다. 본 연구에서는 조건부 메모리 함수가 차세대 희소 모델을 위한 필수적인 모델링 기본 요소가 될 것으로 예상합니다.
참고 자료부록부록 A상세 모델 아키텍처 및 하이퍼 파라미터
| 밀도-4B | MoE-27B | 엔그램-27B | 엔그램-40B | |
| 총 매개변수 | 4.1B | 26.7B | 26.7B | 39.5B |
| 활성 매개변수 | 3.8B | |||
| 총 토큰 수 | 262B | |||
| 레이어 | 30 | |||
| 차원 | 2560 | |||
| 선도적인 고밀도 층 | - | 1 | 1 | 1 |
| 라우팅 전문가 | - | 72 | 55 | 55 |
| 활동적인 전문가 | - | 6 | 6 | 6 |
| 공유 전문가 | - | 2 | 2 | 2 |
| 부하 분산 방식 | - | 손실 없는 [왕2024보조손실무부하균형전략] | ||
| 주의 모듈 | MLA [deepseekai2024deepseekv2strongeconomicalefficient] | |||
| 로프θ | 10000 | |||
| mHC 확장 속도 | 4 | |||
| 시퀀스 길이 | 4096 | |||
| 어휘 크기 | 129280 | |||
| 배치 크기 | 1280 | |||
| 훈련 단계 | 50000 | |||
| 백본 최적화 도구 | 뮤온 [조던2024뮤온] | |||
| 임베딩 최적화 도구 | 아담 [kingma2014adam] | |||
| 기본 학습률 | 4e-4 | |||
| LR 스케줄러 | 단계적 감쇠 [bi2024deepseek] | |||
| 무게 감소 | 0.1 | |||
| 엔그램 딤디메모리 | - | - | 1280 | 1280 |
| 엔그램 어휘 크기 | - | - | 2262400 | 7239680 |
| 엔그램 번호 헤드 | - | - | 8 | 8 |
| 엔그램 레이어 | - | - | [2,15] | [2,15] |
| 엔그램N-그램 | - | - | [2,3] | [2,3] |
| Engram은 mHC를 결합합니다. | - | - | 진실 | 진실 |
| 엔그램 토크나이저 압축 | - | - | 진실 | 진실 |
| Engram Conv Zero Init | - | - | 진실 | 진실 |
| 엔그램 Lr 멀티플라이어 | - | - | x5 | x5 |
| 엔그램 무게 감소 | - | - | 0.0 | 0.0 |
| 엔그램 최적화 도구(내장 전용) | - | - | 아담 [kingma2014adam] | |
표 5 :모델 아키텍처에 대한 상세 정보와 학습 하이퍼파라미터 정보입니다.부록 B전체 벤치마크 곡선
그림 8 :최근 1만 건의 사전 학습 벤치마크 곡선.부록 C토크나이저 압축 사례 연구
| 계급 | 병합세다 | 정규화됨토큰 | 원본 토큰 |
| 1 | 163 | '␣' | '\t' , '\n' , '\r' , '␣' , '␣␣' , '\n\n' , '␣␣␣' , '␣\n' , … |
| 2 | 54 | '에이' | 'A' , 'a' , '␣a' , '␣A' , 'á' , 'ä' , ' ã ' , 'ą' , '␣à' , '␣å' , 'â' , … |
| 3 | 40 | '영형' | 'O' , 'o' , '␣o' , '␣O' , 'ó' , 'ö' , 'ô' , 'õ' , '' , 'ò' , … |
| 4 | 35 | '이자형' | 'E' , 'e' , '␣e' , '␣E' , 'é' , 'è' , '␣é' , 'ę' , 'ě' , 'ê' , … |
| 5 | 30 | '나' | 'I' , 'i' , '␣I' , '␣i' , 'í' , 'ì' , 'î' , 'ī' , 'ï' , … |
표 6:이 표는 토크나이저 압축률별 병합된 상위 5개 토큰을 보여주며 , 128k 토크나이저의 전체 압축률은 23.43%입니다.
|
|