♧ CPU 공부하기

♧ CPU 공부하기 *펜티엄 CPU 공부하기 CPU란 & 프로젝트명 cpu란 centrol processing unit의 줄임말로, 중앙처리장치라는 뜻을 가지고 있는 하드웨어의 일종입니다. 사람의 두뇌와 같은 역할을 한다고 할 수 있죠. 이는 컴의 성능을 좌우하는 큰 매체라고 보시면 됩니다. 새로운 cpu가 나올때마다 pen이니, pen-II니, pen-III니 하는 말보다 클라메스, 코빙턴, 멘도시노, 데슈츠, 지온, 테너, 머시드 말을 사용합니다. 이는 cpu개발시 프로젝트명으로서 자사의 제품보호를 위한 하나의 상술이라 할 수 있겠죠.. 머시드 HP사와 intel이 함께 개발된 64비트 칩으로 pen-III급 씨퓨입니다. 데슈츠 350~450MHz의 펜티엄2입니다. 0.25미크론 공정과 100MHz 버스를 사용합니다. BX 칩셋을 사용한 메인보드에서만 사용 가능합니다. 클라매스 266~333MHz의 펜티엄2입니다. 0.35 미크론 공정(333은 0.25)과 66MHz 버스를 사용합니다. 셀러론 펜티엄2에서 L2 캐시를 뺀 것입니다. 0.25미크론 공정을 사용하고 L2 캐시도 없어서 오버클럭이 쉽습니다. 일반 오피스 프로그램에서 성능이 다소 떨어집니다. 캐시가 빠졌기 때문에 메모리를 액세스해야 되는 횟수가 많아졌기 때문입니다. 일반 3D 게임에서는 별 차이 없습니다. 보통 프로그램에서는 같은 클럭의 펜티엄2보다 20% 정도 느리지만 3D 게임에서는 5~10%밖에 느리지 않습니다. 하지만, 셀러론은 가격대 성능비가 무척 좋습니다. 따라서 일반 유저들에게 적합한 프로세서라고 말씀 드리고 싶네요. *CPU뒤에 붙는 숫자에 관해 설명 그것은 클럭스피드라고 합니다.그게 뭔데..?그건 cpu가 작동하는 횟수를 초 단위로 나타낸 겁니다.작동한다는 것은 우리가 명령을 내리고 그것을 수행한다는 의미로 해석하면 좋겠네요.다음...이 클럭 스피드가 바로Mhz (메가헤르츠)로 단위를 측정 하지요.그래서 펜티엄mmx-200이니233이니 하는 것들이 바로200Mhz ,233Mhz를 줄여서 그냥 부르는 거지요.(쉽죠?) *메가 헤르츠란? 그건 1초에1,000,000(백만이 맞나요?) 번에 사이클이라는 의미지요.그러니까200Mhz란건 1초에200,000,000(2억)번 작동 한다고 알면 좋겠네요.고로 높은Mhz를 가진 cpu가 빠른 컴퓨터라는 것은 두말 하면 잔소리!!! 노파심에 한마디 용산 가서 사실때는 구매자가 판매원을 압도 해야 됩니다. 그러면 사전 지식을 조금 알고 가는 게 좋겠죠? 그래야 바가지를 안쓰죠. 떳떳히 "cpu는 인텔 mmx200으로 끼워주세요!"하세요.반대로"cpu는 어디껄 써야 할지 잘 모르겠는데......"하는 식에 태도는 바가지의 지름길...(좋은 딜러를 만 나면 그럴리는 없겠지만) *MMX가 뭐지? 하는 분들을 위한 설명 쉽게 멀티미디어 확장 CPU라고 합니다. 인텔에서 내놓은 정보는 MMX에 그래픽과 비디오,오디오데이터들을 효과적으로 연산하도록.50여가지의 새로운 명령어들을 추가 했답니다. 멀티미디어 연산시 반복되는 것을 찾는데 중점을 두었다는데 만드는데 가서 만드는 걸 직접보지 않은 이상 알수가 있나......?. 그리고 캐쉬를 보통 칩들의 두배인 32K를 썼답니다.이건 많은은 정보와 데이터를 칩에 저장하고 CPU가 정보를 찾기 위해 메모리에 억세스 하는 횟수를 줄일수 있다는데 이것 역시...흠 펜티엄 III 펜티엄III 프로세서에서 가장 주목할 만한 것은 바로 스트리밍 SIMD 확장 기술(Streaming SIMD Extensions)입니다. 간단히 설명하면, 마이크로프로세서의 역할은 소프트웨어가 요청하는 명령들을 수행하는 일입니다. 인텔 기술진들은 70개의 새 명령들을 펜티엄III 프로세서에 추가했습니다. 소프트웨어 업체들은 이러한 스트리밍 SIMD 확장기술을 바탕으로 특정 작업의 처리 속도를 더욱 높이는 프로그램들을 개발할 수 있도록 해 줍니다. 새로운 명령들을 사용하는 핵심 소프트웨어들은 운영체계 내에 포함되기도 합니다. 예를 들어 마이크로소프트 다이렉트X는 게임, 교육용 프로그램, 그래픽 프로그램 등 다양한 윈도우용 멀티미디어 프로그램에 사용됩니다. 다이렉트X의 개선된 새 버전은 최적화된 스트리밍 SIMD 확장기술을 이용해서 3D 물체와 조명 효과의 처리 속도를 대폭 향상시키고 있습니다. 실제로, 3D Winbench98을 이용한 초기 테스트 결과 펜티엄R II 프로세서에 비해 성능이 30% 향상 된것으로 나타났습니다. intel CPU는... 펜티엄 III 500E 펜티엄 III 750E 그 외의 스트리밍 SIMD 확장기술은 소프트웨어 개발업체들이 직접 채택해 사용하게 됩니다. 예를 들어 음성인식은 화자의 음성 입력을 복잡한 패턴들과 일일이 대조해 내용을 분석해야 하므로 프로세서 자원을 많이 사용하는 기술입니다. 이전 프로세서들의 경우 화자가 말한 단어가 분석되어 화면에 나타나기까지는 상당히 긴 시간이 필요했습니다. 그러나 새로운 스트리밍 SIMD 확장기술을 이용할 경우, 음성인식 소프트웨어의 음성-텍스트 변환 속도를 크게 높일 수 있습니다. 이전의 프로세서로 실행하기에는 너무 속도가 느렸던 정밀 분석프로시저도 자유롭게 활용할 수 있게 되므로 인식의 정확성도 향상됩니다. 소프트웨어들 중 스트리밍 SIMD 확장기술의 장점을 가장 많이 활용할 수 있는 것들은 3D 애니메이션, 컴퓨터 그래픽의 조명, 텍스처, 셰이딩, 이미지 편집과 조작, 동영상 편집과 압축, 음성 인식, 하이파이급 오디오 컨텐트 제작과 재생입니다. 이러한 것들은 인터넷 사용시 두드러게 나타납니다. 대다수의 컴퓨터 사용자들에게는 인터넷을 통해 고품질의 오디오와 비디오 컨텐트를 재생하는 일이 여의치 않습니다. 정보 제공업체들이 제공하는 고품질 멀티미디어 데이터를 끊임없이 PC로 전송 받자면 모뎀 속도가 결코 충분하지 않기 때문입니다. 하지만 스트리밍 SIMD 확장기술을 활용하면 정보가 압축된 형태로 인터넷을 통해 전송되고, 사용자의 PC에 도달해서 신속하게 복원됩니다. 펜티엄 III 프로세서 PC는 다듬어 지지 않은 데이터를 고도로 정교한 시청각 자료로 표현(이를 렌더링이라고도 합니다)하는 데 따른 작업 부하도 분담할 수 있습니다. 웹 사이트에서 사용자의 컴퓨터로 가공되지 않은 데이터를 전송해 렌더링 작업을 사용자측 PC가 직접 수행하도록 하는 것입니다. 펜티엄 III 프로세서의 내부의 특징이라 할 수 있습니다. 새로운 스트리밍 SIMD 확장기술의 특성을 활용할 수 있도록 개발된 소프트웨어를 실행하게 되면 이전에 인텔R 펜티엄R과 인텔R 셀러론™프로세서의 수준보다 향상된 성능을 보실 수 있을 것입니다. 지금까지는 변화 되고 성능향상된 장점을 설명해 드렸습니다. 그러나 출시 전부터 문제가 되어온 것들과 출시후의 문제점들은 설명드리면.... 문제점은 역시 인텔측에서 펜티엄 III CPU에 고유번호 부여 했다는 것입니다. 이것은 개인의 프라이 버시가 누출 될수 있다는 가능성이 있다는 것입니다. 그리고 펜티엄 III가 성능을 완벽히 구현하지 못한다는 것입니다. 완벽히 구현하기 위해서는 인텔에서 개발한 i820칩세트를 써야하고 i820 칩세트를 쓰기 위해서는 램버스 D램을 사용해야 하는등 고가의 부품을 사용해야 하는 문제점이 있고 이점은 컴퓨터의 가격에 큰 영향을 주는등의 단점이 있습니다. i820칩세트와 램버스 D램이 출시 되지만 또다른 문제는 i820칩세트와 램버스 D램은 내부 클럭펄스를 133Mhz지원 가능 하지만 아직 이 속도를 지원하는 펜티엄 III CPU가 나오지 않았었다는 것입니다. 서로 이가 맞지 않는 인텔측의 출시 정책과 이 칩세트의 보급을 위해 현재 가장많이 사용중인 BX, ZX등의 칩세트의 공급을 줄이고 출고 가격을 상승시키는 등의 방법을 사용한다는 것도 큰 단점이라 하겠습니다. AMD CPU 공부하기(AMD-K7) 인텔과 AMD의 간단한 비교 CPU Pentium III 500E Penitum III 750E Athlon 500 Athon 800 제조공정 0.18 미크론 0.18 미크론 0.25 미크론 0.18 미크론 Level 1 캐쉬 32KB 32KB 128KB 128KB Level 2 캐쉬 256KB(500MHz) 256KB(750MHz) 512KB(250MHz) 512KB(320MHz) 사용 전압(Vcore) 1.6V 1.65V 1.6V 1.7V 트랜지스터 집적수 2천8백만 2천8백만 2천2백만 2천2백만 Front Side Bus 100MHz 100MHz 200MHz 200MHz 다이 크기 1.046cm2 1.046cm2 1.84cm2 1.02cm2 소비 전력[W] 16W 24.7W 38W 43W SIMD SSE SSE Enhanced 3DNow! Enhanced 3DNow! 인터페이스 FC-PGA FC-PGA Slot A Slot A 펜티엄 IV공부하기 새롭게 선보이는 IA-32 아키텍처 Intel NetBurst Micro-Architecture -Hyper Pipelined Technology -Rapid Execution Engine -400MHz system bus -Execution Trace Cache -Advanced Dynamic Execution -Advanced Transfer Cache -Enhanced Floating Point and Multimedia Unit -Streaming SIMD Extensions 2 일단, 위에서 제시한 기술들을 보면 파이프라인 기술에서 새롭게 도입된 알고리즘을 채택하였다는 것과 부가적으로 명령어 실행에 있어서 보다 빠르게 처리할 수 있는 코어가 탑재되었음을 시사하고 있다. 또한, 기존의 펜티엄3 에 비하여 보다 진보한 아키텍처를 가지고 있음을 알 수 있다. 그렇다면 여기에 쓰인 기술들은 어떠한 방법으로 그것들을 활용하며 실제 우리가 사용하는 것에서는 어떤 이점을 보일까? 개별적인 기능들을 가지고 살펴봐야 할 것이며, 이들을 활용할 수 있는 소프트웨어에서의 검증이 필요할 것이다. Hyper Pipelined Technology 인텔은 펜티엄4를 홍보하면서 새롭고 변화된 기술에 있어서 Hyper Pipelined Technology 를 처음으로 언급하였다. 현재의 프로세서에서 파이프라인 기술은 프로세서의 효율적인 동작을 위한 것으로 기존 펜티엄3에 10단계 구조에 비해 2배 늘어난 20단계의 구조를 가지고 있다. 이러한 20단계에 걸친 파이프라인 구조는 펜티엄4가 과거 P6 아키텍처를 탈피한 새로운 아키텍처로 구현되었음을 시사하는 것이다. 이러한 파이프라인의 구조는 늘어난 단계에 따라 효율적인 동작을 보장할 수 있지만, 단점으로 작용하는 분기예측이 실패하였을 경우의 댓가는 더욱 크다. 장단점에 대해 보다 자세히 살펴보도록 하자. 늘어난 파이프라인의 단계에 따라서 분기예측이 실패하였을 경우 20단계(정확하게는 19단계)를 다시 수행하는 문제가 생긴다. 이는 기존 파이프라인 되지 않은 프로세서에서 각각의 유닛이 수행되는 유닛을 위해 쉬고 있는 비효율적인 구조와 흡사하다. 물론 분기예측의 경우 90% 이상의 적중률을 갖고 있기 때문에 이러한 문제점은 기존 프로세서의 구조에 비해 더 효율적이라고도 할 수 있다. 이는 20단계의 파이프라인 구조가 갖는 장점을 살펴보고 다시 언급하도록 하겠다. 파이프라인의 구조는 상대적으로 느린 속도를 갖는다고도 할 수 있다. 같은 물리적 소자에 의한 프로세서라고 가정을 하였을 경우 파이프라인 된 유닛과 파이프라인 되지 않은 유닛은 수행 속도가 다르다. 가령 파이프라인 되지 않은 유닛에서 4단계에 걸친 수행단계는 하나의 명령어를 수행하는 과정에서 1 clock 을 소비하는데, 이 경우에는 독자적으로 유닛을 실행할 수 없기 때문에 각각의 유닛이 실행되기까지는 총 4 clock 을 소비한다고 할 수 있다. 즉, 4개의 명령어를 수행한다고 하였을 경우이며, 각각의 유닛은 1/4 clock 을 소비한다. 하지만, 파이프라인 된 유닛은 1 clock 을 소비하는데 알고리즘에 의해 독자적인 수행이 가능하므로 4 단계의 수행은 총 4 clock 을 필요로 하게 된다. 동일한 클럭수를 필요로 하지만, 실제 파이프라인 된 유닛의 물리적인 소자는 파이프라인 되지 않은 유닛과 동일한 수행시간을 필요로 하기 때문에 실제 1/4 clock 으로 동작하는 유닛은 4개의 명령어 수행에 있어서 1 clock 만을 소비하게 된다. 결국, 이러한 이유로 보다 효율적인 동작을 위한 파이프라인 구조는 계속 진보되어 왔으며, 인텔은 새로운 파이프라인 기술을 가지 앞으로 고 클럭의 프로세서 항진을 위한 그 틀을 마련한 것이라 할 수 있다. 즉, 같은 1GHz 의 CPU 라고 하더라도 파이프라인 된 프로세서는 그 구조의 장점을 가지고 더 높은 클럭의 CPU 를 양산할 수 있는 발판이 되는 것이다. (과거 펜티엄 프로로 시작한 P6 아키텍처는 현재의 펜티엄3 에 이르기까지 상당한 클럭의 향상을 가지고 왔음을 알아둘 필요가 있다.) 이외에도 파이프라인에 대해서 디코더 유닛이 파이프라인 내에 없는 것 과 L1 캐쉬의 양이 8KB 로 줄었다는 점은 지연시간을 줄여 클럭을 높이기 유리하게 위함으로 해석할 수 있다. 또한, Drive 라 명명된 5, 19 단계의 유닛은 정작 어떠한 동작을 하기 위함인지 정확한 설명이 되어 있지 않음을 언급하기도 한다. 이에 대한 해석으로는 앞으로의 파이프라인 구조에서 추가될 수 있는 유닛을 이한 단순한 헤드 룸이라 설명하기도 하며, 기존 파이프라인 구조에 있어서 길어진 단계에서 발생할 수 있는 해저드 요인을 막기 위한 별도의 유닛이라 해석하기도 한다. 여하튼 인텔에서 발표한 Hyper Pipelined Technology 는 많은 개발자들에게 관심이 되고 있는 이슈거리라 할 수 있다. Rapid Execution Engine 결국 인텔은 앞서 언급한 파이프라인의 강화, 그렇지만 늦어질 수 있는 명령어 처리에 있어서 보다 빠른 명령어 수행이 가능하도록 Rapid Execution Engine 을 언급하고 있다. ALU (Arithmetic Logic Units)을 기존 동작속도의 두 배의 속도로 동작시키는데, 실제 클럭의 1/2에 해당하는 속도로 하나의 명령 구조를 처리할 수 있게 한다. 이로 인해 실행에 필요한 대기시간을 줄이고 보다 빠른 명령어를 수행할 수 있게 하는 것이다. 결과적으로 1.5GHz 의 CPU 클럭이라 하였을 때, 3GHz CPU 와 같은 유닛을 처리할 수 있는 효율성을 가지고 있다고 한다. 이는 앞서 언급한 파이프라인 구조에서 빠르게 처리되는 명령어들을 받아 바로 처리할 수 있게 하는 것이다. Advanced Dynamic Execution 펜티엄4는 보다 빠른 명령어 실행 유닛과 이를 기반으로 한 파이프라인 구조에 의한다. 하지만 중요한 것은 단계가 길어진 파이프라인 구조로 인하여 해저드 요인은 더 빈번하게 발생할 수 있다는 것이다. 즉, 이를 해결하기 위해서는 최적화된 스케쥴링을 필요로 한다. 순차적으로 실행되는 명령어의 경우 큰 문제점은 없지만, 비순차적으로 실행되는 명령어의 경우 길어진 파이프라인에 의해 해저드 요인은 빈번하게 발생할 수 있다. 결국 이러한 해저드 요인을 없애고 비순차적으로 실행되는 명령어를 보다 효율적으로 통제하는 것이 Advanced Dynamic Execution 이라 할 수 있다. 이러한 구조는 비순차적 명령 구조에서 발생하는 분기예측의 실패를 최소화할 수 있으며, 전체적으로는 파이프라인의 구조를 보다 효과적으로 수행하는 역할을 하는데, 이와 연관되어 Execution Trace Cache 가 캐쉬 구조로 그 것을 원활하게 동작하게 하고 있다. Execution Trace Cache/Advanced Transfer Cache 파이프라인 단계에서 디코더가 제외되었음을 언급하였다. 이에 대한 것은 기본 실행 유닛에서 디코더를 전 단계에 위치시킴으로 과거 디코더가 내부에 있으면서 발생할 수 있는 디코딩 지연시간. 이로 인한 전체 파이프라인에 발생할 수 있는 지연시간을 제거한 것인데, 이와 연관되어 Execution Trace Cache 는 기본 유닛 외부에서 디코딩 되어 들어오는 마이크로 OP 코드를 캐쉬에 저장하여 보다 빠른 수행을 가능케 한다. 이는 캐쉬 내에서 디코딩 된 OP 코드를 캐쉬로부터 불러들이기 때문에 또다시 디코딩에서 정체되는 지연시간을 없앴을 수 있는 것이다. 만일 파이프라인 구조 내에 디코더가 포함되었다 라고 한다면, 디코더에서 걸리는 지연시간으로 더욱 많아진 단계는 더욱 비효율적이 되었을 것이다. 400MHz system bus 앞서 언급한 내용들에 대한 최종적인 해결방안은 시스템 클럭의 향상을 들 수 있다. 이는 기본적으로 동작하는 100MHz 의 P6 비해 펜티엄4 는 4배의 향상된 시스템 클럭을 갖는다. 다시 말한다면 앞서 언급한 20단계의 파이프라인에 의해 가능하게 된 400MHz 의 시스템 버스 클럭은 총체적으로 펜티엄3 의 1.06GB/s(133Mhz 대비) 데이터 전송률에 비해 3배 향상된 3.2GB/s 의 데이터 전송률을 갖는다. 이는 프로세서와 시스템 메모리간의 데이터 처리를 보다 빠르게 할 수 있으며, 실질적으로 i850 구조의 DRDRAM 과 좋은 데이터 교류를 가능하게 한다. 실제 이렇게 향상된 CPU 의 클럭은 앞서 언급한 분기예측의 실패와 이에 따른 파이프라인의 재 수행 절차에 올 수 있는 대기시간을 보다 빠르게 하여 파이프라인 단계가 많아지면서 생기는 기본적인 문제를 총체적으로 해결해 주기도 한다. Streaming SIMD Extension 2 (SSE2) MMX 와 SSE 를 확장시킨 SSE2 는 144개의 새로운 유닛을 추가하여 FPU 처리에 대한 보강과 함께 앞으로의 멀티미디어 분야에 대한 적용을 하였다. 기존 SSE/MMX 기술에 2배에 달하는 128bit SIMD 정수 연산으로 비디오, 음성, 암호 및 이미지 프로세싱과 관련한 멀티미디어 유닛이 확장되었으며, 128bit SIMD 배정밀 부동소수 연산으로 기하학 및 기타 엔지니어링 기술에서 자주 쓰이는 3D 및 각종 수치해석에 대해 FPU 처리 능력을 보강한 진보된 처리를 할 수 있게 하였다. 이러한 SSE2 는 앞으로의 멀티미디어 및 심도 깊은 소프트웨어에서 펜티엄4가 두각을 보여줄 수 있음을 시사하는 것이다. 이렇듯 앞서 언급한 기술들은 세분화하여 보다 효율적이며 빠른 명령어 수행, 대기 지연시간 단축, 자원의 낭비가 없는 효과적인 프로세싱을 위한 방법들이며 결국 여기서 발생할 수 있는 최종적인 문제는 시스템 클럭의 향상으로 그것을 해결하고 있다. 결론적으로 이러한 구조는 기존 아키텍처에서 그대로 따르는 단순 클럭 높이기의 프로세서가 아닌 새로운 개념을 도입하는 차세대 프로세서임을 말하는 것인데, 여기서 중요한 사항은 펜티엄4를 펜티엄3와 비교하여 동일 클럭대에서의 효율을 따지는 것 자체가 어쩌면 무의미할지도 모른다는 사실이다.