|
누가 클럭을 똑같이 맞춰도 Zen2의 게임 성능이 인텔보다 여전히 떨어지는 이유가
메모리 레이턴시라고 우기는데 틀린 주장입니다.
캐시 메모리 레이턴시에도 어떤 조건에서 어떤 식으로 접근하냐에 따라 다르고
캐시 메모리 대역폭도 어떤 데이터 타입(자료형)에서 어떤 식으로 처리하냐에 따라 다르지만
일일이 비교하기엔 너무 복잡하므로 그래프를 통해 대략적으로 비교하자면
이미 Zen+에서 인텔을 어느 정도 따라잡았고
https://www.anandtech.com/show/12625/amd-second-generation-ryzen-7-2700x-2700-ryzen-5-2600x-2600/3
Zen2에서는 일부 영역에서 인텔을 능가하기도 합니다.
https://www.anandtech.com/show/14605/the-and-ryzen-3700x-3900x-review-raising-the-bar/2
메모리 병렬 처리 능력도 Zen2가 인텔보다 대체로 더 우수한 편으로 나옵니다.
캐시 미스가 발생했을 경우 메모리 병렬 처리 능력을 통해
얼마나 손실을 매꿀 수 있는 능력인가를 판별하는 지표인데
멀티코어, 멀티스레드 CPU 시대에 맞게 추가로 요구되는 성능 지표라고 보면 됩니다.
하지만, 캐시 메모리 레이턴시와 대역폭만 빠르면 장땡이 아닙니다.
캐시 적중률을 높여야 하죠. 반대로 말하면 캐시 미시 레이트를 낮춰야 합니다.
먼저 서버용 CPU별 L3 캐시 적중률 비교입니다.
https://blog.cloudflare.com/impact-of-cache-locality
캐시 미스 레이트가 낮은 실험과 높은 실험 두 가지로 비교했다고 나와 있는데
둘 다 Zen2가 더 우수한 결과로 나왔습니다.
물론 그 인텔 CPU가 서버용 CPU라서 못 믿는 사람들이 있을까봐 덧붙여 일러두자면
일반 데탑용 CPU의 L3 캐시 메모리 용량은 코어당 2 MB에 inclusive(포괄적) 캐시 정책,
서버용 CPU의 L3 캐시 메모리 용량은 코어당 1.375 MB에 exclusive(배타적) 캐시 정책이라는 차이점이 있고
안 그래도 인텔이 2019년 E3 행사에서
i9-9900K의 캐시 메모리 적중률 측정 자료를 직접 공표했기 때문에
https://pcper.com/2019/06/intel-gaming-performance-ryzen-3000
그 자료를 근거로 삼아서 비교해봐도
Zen2가 여전히 더 우수한 캐시 메모리 적중률을 보여준다고 짐작할 수 있습니다.
참고로 Zen2는 일반 데탑용, 서버용 둘 다
캐시 메모리 구조가 같기 때문에 적중률도 서로 똑같다고 보면 됩니다.
캐시 정책도 배타적 캐시 정책의 하위 개념인 victim(희생양) 캐시 정책이기도 하고요
캐시 정책에 대해 잘 모르는 분들을 위해 위키백과에 남겨두겠습니다. (영알못인 분들에게는 구글번역기로...)
https://en.wikipedia.org/wiki/Cache_inclusion_policy
https://en.wikipedia.org/wiki/Cache_(computing)#WRITE-BACK
https://en.wikipedia.org/wiki/Victim_cache
결론은 Zen2의 캐시 메모리 레이턴시, 대역폭, 적중률, 병렬 처리 능력이
인텔보다 딱히 떨어지지 않는다 입니다.
단, Zen2가 인텔한테 확실히 밀리는 부분은 메인 메모리(DRAM) 레이턴시입니다.
L1 캐시 메모리 대역폭도 살짝 아쉽지만...
첫댓글 워우 뭔그래프가 이리많아 ㅠ
비교할 요소가 많다보니 자료가 많아져서 그랬어요... 안 올리면 못 믿을 것 같아서요
공감합니다 ^^
그래프가 많고 영문이라=ㅅ=).. 영어가 약한 저는 제대로 알아보기가 좀 어렵네요
일단 제가 아는 한도내에서 말씀드림
- 레이턴시는 별의미가 없다 (케시용량이나 분기예측(여기에는 캐시 적중율이 포함)적중율을 높여 커버할수있음)
- 캐시 미스도 -> 프리패쳐로 어느정도 해결된다는데 이건 자세는 몰라서 적당히 생략(파이프 라인을 비우는 대신 일부를 프리페치로 미스난걸 매움 정도로 알고있음)
- 대충 윗글도 그래프는 캐시 대역폭은 인텔대비 암드가 좀 빠른걸로 보이는데 일부 케시나 메모리쪽 대역폭은 엎치락 뒤치락해보임
- 거기에다가 용량을 늘린 캐시덕에 대역폭이나 레이턴시쪽도 해결됐으면 결국 남아있는건
속도가 맞먹는데 (그래프 보면 대역폭 레이턴시
1) 인피니티 패브릭 때문
2) 분기예측 차이?
3) 적중율 차이 -> 이중에서 제가 적중율 차이를 강조한게 걸려서 올리신 자료같은데 같은 캐시 용량에서 적중율은 분명히 amd가 쳐집니다 (이거 생방에서도 이렇게 이야기했을탠데) 다만 이번에 게임캐시라면서 강조한 이유가 그 낮아진 적중율을 용량을 때운겁니다 상기 자료도 그 기준이구요 결국 같은 용량기준일대 캐시 적중수치가 따라가야 동일한 적중율이라 볼수
머 분기예측은 아예 자료 공개를 안하니 확인안되고
인피니티 패브릭측 문제는 예전에 자료본 기억이 좀 가물가물하지만 실성능에서는 1%남짓 게이밍에서만 게임 종류별로 0~10%까지 차이가 난다고 하죠-ㅅ-);;
결국 암드가 캐시 적중율이 인텔급이었으면 2배의 용량으로 아무리봐도 IF걸로 손해봐도 밀려서는 안되는 구조라고 봅니다 (IPC도 다 따라온 현시점에서 2배의 캐시를 때려박고 속도도 비슷한데 게이밍성능에서 IF만으로 쳐진다.. 이건 이번 실험에 7700K=3300X 가 되는 시점부터 (여기는 IF의 방해를 거의안받죠 1CCX구조라) 2배의 캐시에 좀더 높은 IPC로 ... 맞먹어 버린게 된게 아마 그 단적이 예가 될수있다고 봅니다
https://blog.cloudflare.com/impact-of-cache-locality/
케시 적중율에 대해서 보여준 요 블로그 가보니 2배정도 인텔대비 빠른데..
얘네들 캐시용량차이가 L3기준으로 보면
33 대 256이에요 (256이 AMD측) 여기 결론에서도 캐시 용량이 커서 적중율은 잡은 상태 라고 합니다
생방에서 제가 이야기한게 기본 조건이 동일한 용량에서 AMD의 캐시 적중율이 떨어져서 용량을 키우고 적중율을 잡은형태라 맨날 캐시 적중이 개선가능하다 IF 패브릭만으로 그리 차이안난다 =ㅅ= 그러는것..
그래서 결론은머 아직 AMD는 발전 할수있는 폭이 크다 정도?
CCX 구조, 캐시 적중, (분기예측은 인텔대비 안밀린다는데 자료가없어서 생략) 더높은 클럭 까지요
참고로 저게 왜 동일한 용량에서 적중율이 비슷해야되냐하면.. IF 문제가
4코어당 캐시가 묶여있자나요 AMD가 급격히 게이밍성능이 빠지는게 그 4코어당 묶여있는 캐시끼리 공유를 위해 IF요걸 통과해야되기 때문이라 캐시 공유가 필요없는 형태에서도 높은 적중율을 보여주거나 아님 아예 구조 개선을 통해 대용량캐시 + 8코어 CCX 구조로하던가 양자 택일하면 인텔못지않게 될거거든요