Bài giảng môn Kiến trúc máy tính - Chương 3: Bộ xử lý

CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ

Tốc độ của bộ xử lý

Hệ số nhân tốc xung nhịp

Bus dữ liệu

Bộ nhớ đệm Cache

Các loại đế cắm (Socket) và khe cắm (Slot) bộ xử lý

Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý

Bus dữ liệu trong

Cấu thành từ các đường dữ liệu và các thanh ghi trong.

Kích thước thanh ghi: xác định dạng phần mềm và lệnh mà bộ xử lý có thể chạy.

CPU từ 386  Pentium III là các bộ xử lý 32-bit,  có thể chạy các hệ điều hành và phần mềm 32-bit.

8088, 386SX: bus dữ liệu trong rộng gấp đôi bus dữ liệu ngoài  ???

 Truyền và nạp dữ liệu bên trong CPU với kích thước đầy đủ = kích thước thanh ghi

 Truyền và nạp dữ liệu với bên ngoài sẽ bị hạn chế bởi độ rộng của bus dữ liệu ngoài.

 Pentium: bus dữ liệu ngoài 64-bit, thanh ghi chỉ có 32-bit,

 Do có 2 pipeline 32-bit để xử lý, nên việc nạp dữ liệu rất hiệu quả.

 

ppt 44 trang kimcuc 6640
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng môn Kiến trúc máy tính - Chương 3: Bộ xử lý", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng môn Kiến trúc máy tính - Chương 3: Bộ xử lý

Bài giảng môn Kiến trúc máy tính - Chương 3: Bộ xử lý
Chương 3  BỘ XỬ LÝ 
 Các đặc tả bộ xử lý 
 Các bộ xử lý Intel 
 Các bộ xử lý công nghệ tiên tiến 
Nội dung 
BỘ XỬ LÝ 
Công nghệ chế tạo: mạch tổ hợp cỡ lớn VLSI ( Very Large Scale Integrated Circuit) . 
Bộ xử lý - CPU (Central Processing Unit ): 
	Bộ não của hệ thống máy tính 
Chức năng ? 
Thực hiện chương trình chứa trong bộ nhớ 
Cơ chế: nhập tuần tự từng lệnh từ bộ nhớ và xử lý 
Điều khiển hoạt động trao đổi dữ liệu giữa CPU và bộ nhớ, giữa CPU với thiết bị vào/ra và với các thiết bị khác . 
1. CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ 
Tốc độ của bộ xử lý 
Hệ số nhân tốc xung nhịp 
Bus dữ liệu 
Bộ nhớ đệm Cache 
Các loại đế cắm (Socket) và khe cắm (Slot) bộ xử lý 
Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý 
1. CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ 
Tốc độ đồng hồ đo bằng tần số (Hz) = số chu kỳ nhịp /giây. 
Chu kỳ nhịp (Clock Cycle) : thành phần thời gian nhỏ nhất của CPU 
Tốc độ của bộ xử lý 
= Tần số hoạt động ?  
Thực thi chương trình  Thực hiện lệnh 
Chu kỳ lệnh (Inst. cycle) 
Thời gian cần để thực hiện xong một lệnh 
= 1 hoặc nhiều chu kỳ máy (machine cycle). 
Chu kỳ máy (machine cycle) 
Thực hiện một cuộc chuyển dữ liệu đơn thuần 
= 1 hoặc nhiều hơn một chu kỳ nhịp đồng hồ. 
Chu kỳ đợi (Wait state) 
Số chu kỳ để thực hiện lần truyền dữ liệu đầu tiên. 
Mỗi CPU cần số chu kỳ nhịp và thời gian khác nhau để thực thi lệnh. 
Trước khi truyền dữ liệu cần thêm chu kỳ đợi 
Khó đánh giá chính xác: Phụ thuộc nhiều yếu tố 
Dựa vào phép đo lường tiêu chuẩn (benchmark) 
Intel 
 Tiêu chuẩn iCOM 
Tốc độ của bộ xử lý 
? Tốc độ thực hiện lệnh 
AMD, Cyrix 
 PR (Performance Rating) 
# ? 
! 
? Khó khăn: 
 Từ 486DX2: tốc độ CPU nhanh gấp nhiều lần FSB 
 Mỗi bảng mạch có thể xác lập để chạy với vài loại CPU tốc độ khác nhau, thông qua hệ số nhân xung nhịp. 
VD: 133MHz, 2.8GHz 
VD: PR 133, PR533 
f - tần số nhịp làm việc của CPU; 
N - số đơn vị xử lý số học-logic ALU 
C - số chu kỳ nhịp trung bình của một lệnh 
tw- Hệ số thời gian truy nhập bộ nhớ ( cả chu kỳ đợi) 
? Đánh giá tốc độ 
Yêu cầu nâng tốc độ CPU 
Tốc độ Mainboard không đáp ứng được 
Bộ nhân tốc: tích hợp vào trong CPU 
 Hệ số nhân tốc (bus Ratio) 
 CPU speed = Host Clock x Bus Ratio 
(Tốc độ CPU = Tốc độ Bus x Hệ số nhân) 
Hệ số nhân tốc xung nhịp 
486 DX /33MHz 
Cache 
486 DX2 
 /66 MHz 
Cache 
Double Clock 
33 MHz 
(a) 
33 MHz 
(b) 
 a- VXL 486 không nhân tốc độ 
 b- VXL 486 với bộ nhân đôi tốc độ 
? Tốc độ CPU 
Thiết lập tốc độ và hệ số nhân (multiplier) ? 
 Dùng jumper hoặc cấu hình tốc độ trong BIOS 
? Overclocking:  
Cấu thành từ các đường dữ liệu và các thanh ghi trong. 
Kích thước thanh ghi: xác định dạng phần mềm và lệnh mà bộ xử lý có thể chạy. 
CPU từ 386  Pentium III là các bộ xử lý 32-bit,  có thể chạy các hệ điều hành và phần mềm 32-bit. 
Bus dữ liệu 
Bus dữ liệu trong 
 8088, 386SX: bus dữ liệu trong rộng gấp đôi bus dữ liệu ngoài  ??? 
 Truyền và nạp dữ liệu bên trong CPU với kích thước đầy đủ = kích thước thanh ghi 
 Truyền và nạp dữ liệu với bên ngoài sẽ bị hạn chế bởi độ rộng của bus dữ liệu ngoài. 
 Pentium: bus dữ liệu ngoài 64-bit, thanh ghi chỉ có 32-bit, 
 Do có 2 pipeline 32-bit để xử lý, nên việc nạp dữ liệu rất hiệu quả. 
Tập hợp các dây để nhận gửi dữ liệu. 
Độ rộng bus dữ liệu ngoài xác định kích thước một khối bộ nhớ (a bank of memory). 
Bus dữ liệu 
Bus dữ liệu ngoài 
 Bank RAM? 
 Lắp đặt bộ nhớ RAM? 
Kích thước bus dữ liệu: 
286, 386SX : 16-bit 
386DX, 486: 32-bit 
Pentium: 64-bit 
Có thể ghi/đọc bộ nhớ cùng một lúc với 16, 32 hay 64-bit 
 ? Tốc độ xử lý của CPU phụ thuộc vào: 
 	 Tốc độ truy nhập bộ nhớ chính 
 Bộ nhớ chính (bộ nhớ thao tác- Main memory) 
Dung lượng nhớ khá hạn chế 
Dùng DRAM  Tốc độ truy nhập chậm (~ 100÷10 ns) 
Phải làm tươi thông tin (Refresh) 
 ! Chỉ dùng bộ nhớ chính  hạn chế khả năng của CPU. 
 Tổ chức bộ nhớ PC theo kiểu hệ thống có phân cấp: 
Tăng tốc độ xử lý của CPU 
Đảm bảo khả năng lưu trữ lớn 
CACHE 
 Thêm vào hệ thống một bộ nhớ có tốc độ truy nhập cao, dùng SRAM  Bộ nhớ cache 
CACHE 
Dùng lưu trữ các lệnh và dữ liệu thường sử dụng nhiều trong quá trình thực hiện chương trình. 
Cơ chế nạp lệnh, suy đoán cho phép dự đoán nhu cầu của CPU và nạp trước các dữ liệu cần thiết vào cache. 
Khi CPU có yêu cầu, dữ liệu sẽ được nạp từ cache thay vì nạp từ bộ nhớ chính, tăng hiệu năng xử lý hệ thống 
Cache controller 
Cache 
L2 
Main 
memory 
CPU 
Hình 3.2 Hệ thống bộ nhớ dùng Cache 
Cache 
L1 
CACHE 
Cache L1 (Cache Level 1) 
Lưu trữ một số mã lệnh và dữ liệu của công việc hiện thời. 
Dung lượng nhỏ: ban đầu là 8 KiB, sau tăng lên 16, 32 KiB... 
Được thiết kế trong khuôn bộ xử lý, 
Tốc độ xung nhịp bằng với tốc độ BXL 
Từ kiến trúc P5 cache L1 được tách thành hai phần riêng: 
ICache cho mã lệnh 
DCache cho dữ liệu 
Pentium IVchỉ còn 8 KiB DCache, ICache cho mã lệnh thay bằng cache ETC (Execution Trace Cache) . 
Cache L1 (8KB) 
DCache 
(8KiB) 
ICache 
(8KiB) 
Pentium P5 
DCache 
(16KiB) 
ICache 
(16KiB) 
Pentium III 
DCache 
(8/16KiB) 
ETC Cache 
Pentium IV 
DCache 
(16KiB) 
ETC Cache 
Pentium D 
Intel 486 
CACHE 
Cache L2 (Cache Level 2) - Cache thứ cấp 
Được dùng nhằm giảm bớt thời gian chờ khi lỡ cache L1 
Pentium P5 
128-512 KiB 
On board 
= tốc độ FSB 
Pentium II 
512KiB 
Cùng CPU 
= 1/3–1/2 tốc độ CPU 
P6, Celeron 
256KiB-1MiB 
On die 
= tốc độ CPU 
Pentium III 
256KiB-1MiB 
On die 
ATC Cache 
Pentium IV 
256KiB-1MiB 
On die 
ATC Cache 
Pentium D 
1 or 2MiB x2 
On die 
Cache riêng cho mỗi core 
Dual Core 
1MiB 
On die 
Share Cache - Công nghệ Smart 
Core 2 Duo 
2 or 4MiB 
On die 
Share Cache - Công nghệ Smart 
Cache L3 (Integrated Cache Level 3) 
Cache L3 với 2MB được thiết dành cho một số hệ thống như: PIV Extreme Edition 
0 1 0 0 1 0 1 1 
0 1 0 0 1 0 1 1 
0 1 0 0 1 0 1 1 
Kỹ thuật cơ bản của các CPU từ 8086  Tăng tốc độ xử lý 
Một lệnh được chia thành n phép xử lý nhỏ 
Thực hiện lần lượt trong 1 đường ống n giai đoạn (Stage). 
Quá trình xử lý lệnh đồng thời xảy ra trên mọi giai đoạn 
Stage1 
R 1 
P 1 
Stage2 
R 2 
P 2 
Stage N 
R n 
P n 
Kỹ thuật xử lý lệnh kiểu đường ống (Pipeline) 
Pentium 4 20 
Prescott 31 
Pen III 10 
Pentium 
Pentium M 14 
5 
Số giai đoạn đường ống gia tăng 
Tăng tốc độ thực thi lệnh ? 
Lỗi tại 1 giai đoạn  toàn đường ống sẽ bị xóa, quá trình xử lý phải thực hiện lại từ đầu 
Thiết kế dự đoán rẽ nhánh lệnh Branch Prediction 
Đế cắm (Socket) và khe cắm (Slot) 
Đế cắm 
Số chân 
Bố trí chân 
Điện áp 
Bộ xử lý 
Socket 1 
169 
17x17 PGA 
5V 
486 SX, DX/DX2, DX2 OverDrive 
Socket 2 
238 
19x19 PGA 
5V 
486 SX, DX/DX2, Pentium OverDrive 
Socket 3 
237 
19x19 PGA 
5/3.3V 
486 SX, DX/DX2/ DX4, AMD 5x86 
Socket 4 
273 
21x21 PGA 
5V 
Pentium 60/66, OverDrive 
Socket 5 
320 
37x37 SPGA 
3.3/3.5V 
Pentium 75-200 OverDrive 
Socket 6 
235 
19x19 PGA 
3.3V 
486 DX4, Pentium Overdrive 
Socket 7 
321 
37x37 SPGA 
VRM 
Pentium 75-233+, MMX, K5/K6, MI/II 
Socket 8 
387 
Dual patern SPGA 
Auto VRM 
Pentium PRO 
Socket 370 
370 
37x37 SPGA 
Auto VRM 
Celeron/ Pentium III PPGA/FC-PGA 
Slot A 
242 
Slot 
Auto VRM 
AMD Athlon PGA 
Socket A 
462 
PGA Socket 
Auto VRM 
AMD Athlon / Duron SECC 
Slot 1 
242 
Slot 
Auto VRM 
Pentium II/III, Celeron SECC 
Slot 2 
330 
Slot 
Auto VRM 
Pentium II/III Xeon 
Socket 423 
423 
SPGA 
Auto VRM 
Pentium IV 
Socket 478 
478 
SPGA 
Auto VRM 
Pentium IV 
LGA 775 
775 
SPGA 
Auto VRM 
Pentium IV 
Socket & Slot 
? Đế cắm dạng ZIF (Zero insertion force) 
Socket 1-7, kiểu PGA hoặc SPGA: tối đa 321 chân 
Socket 8 cho Pentium Pro dạng SPGA kép 
Slot1 cho PII, PIII đầu và Slot2 cho Xeon: dùng các điểm tiếp xúc 
SK 370 cho PIII Tualtin, Celeron và SK 423/478 cho P4 
Slot 1 
Socket 370 
Socket 478 
LGA775 (Land Grid Array 775) 
LGA775 
775 điểm tiếp xúc thay cho các chân cắm  tránh được hiện tượng cong hoặc gẫy chân CPU 
Áp dụng từ dòng Prescott thứ 2 (sau Prescott đầu dùng SK478). 
Thường được hỗ trợ bởi các chipset 9x 
Kết cấu ổ cắm khá phức tạp, nhưng cho phép chế tạo các CPU có mật độ tiếp xúc (chân) dày đặc hơn, đáp ứng các yêu cầu kỹ thuật nhưng chi phí thấp. 
Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý 
	Công suất tiêu thụ tăng làm nhiệt lượng tỏa ra lớn khó nâng cao xung nhịp CPU  Xu hướng thiết kế: 
Giảm điện áp làm việc 
Điện áp 5V  điện áp thấp dưới 2V  siêu thấp < 1V 
Tần số hoạt động tăng 
Giảm kích thước các phần tử trong CPU 
Thay đổi quy trình công nghệ: 10 m  0.13 m  kích thước nano (90, 65, 45..32 n m) 
Số transitor tăng: 3.1 triệu của Pentium P5  42 triệu của P4  hàng trăm triệu transitor trên các Core 2 Duo 
Sử dụng công nghệ vật liệu khác 
Dây dẫn nhôm  đồng, giúp điện trở giảm 
	Các công nghệ CPU, chipset cũng nhằm vào mục tiêu giảm điện năng tiêu thụ và nhiệt lượng của CPU 
Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý 
Gồm một tấm kim loại chia thành các cánh, nhờ vậy tăng được diện tích toả nhiệt. 
Giữa tấm kim loại và CPU thường được bôi một lớp epoxy, tăng diện tích tiếp xúc bề mặt. 
Tản nhiệt 
Quạt gió để hút nhiệt từ các cánh tản nhiệt ra. 
Các quạt thường lấy điện áp trên mainboard (hoặc từ bộ nguồn), 
FAN tiêu chuẩn: công suất khoảng 1W (0.2A-5V) 
FAN 
2. CÁC BỘ XỬ LÝ INTEL 
Họ 4 bit/8 bit: 4004 | 4040 | 8008 | 8080 | 8085   
Họ 16 bit: 8086 | 8088 | 80186 | 80286 
Họ 32 bit: 80386 | 80486 
 Họ Pentium : Pentium | Pentium Pro | Pentium II | Celeron | Pentium III | 
 Pentium III-M | Pentium 4 | Pentium 4-M | Mobile Pentium 4 | 
 Pentium 4 EE | Celeron D | Pentium D | Pentium EE 
 Pentium Mobile : Pentium M | Celeron M 
 Họ Core : Core Duo | Core Solo | Core 2 Duo | Core 2 Extreme 
 Họ Server : Xeon 
 Non x86 compatibili: Intel iAPX 432 | Intel i860 | Intel i960 
 Kiến trúc IA-64 : Itanium | Itanium 2 
PENTIUM P5 
Thế hệ thứ 5, tên mã Pentium P5 : Pentium P5 | Pentium M MX | 
Kiến trúc siêu hướng (super scalar) 
Thực thi kỹ thuật xử lý song song mức lệnh ILP (Instuction Level Parallelism) 
Super scalar với: 
Hai đường ống lệnh (pipeline) nguyên, ống lệnh dấu chấm động 
Thao tác các chỉ lệnh đa hướng  thực thi nhiều lệnh cùng một lúc. 
Công nghệ MMX (Multimedia Extensions) 
Mở rộng cho các ứng dụng multimedia, để cải tiến việc nén/giải nén video, xử lý âm thanh, hình ảnh. Cải tiến cấu trúc: 
Tăng Cache L1, nâng cao hiệu năng của bộ xử lý 
Bổ sung 57 lệnh cho xử lý video, âm thanh và đồ hoạ cùng P.P SIMD (Single Intenction Multiple Data)  cho phép một lệnh duy nhất xử lý trên nhiều vùng dữ liệu cùng một lúc 
PENTIUM P6 
Pentium PRO | Pentium II | Celeron | Pentium III | Pentium III-M 
Thực thi động (Dynamic Execution) 
Giúp bộ xử lý thao tác dữ liệu theo một trật tự logic 
Cho phép thực hiện nhiều lệnh song song và hiệu quả hơn, gồm: 
Vi kiến trúc P6 
Dự đoán đa nhánh (Multiple Branch Prediction) 
Có thể đoán trước được những bước tiếp theo trong dòng chỉ lệnh. Hiệu quả dự đoán đạt được tới 90%. 
Phân tích luồng dữ liệu (Data Flow Analysis) 
Phân tích và lập thứ tự cho các lệnh, để thực thi theo một trình tự tối ưu và hiệu quả nhất không phụ thuộc vào thứ tự của chương trình. 
Thực thi suy đoán (Speculative Execution) 
Lưu kết quả của các lệnh đã thực hiện, cho phép bộ xử lý lấy kết quả có sẵn này sử dụng khi cần thiết. 
PENTIUM P6 
Kiến trúc bus đôi độc lập DIB (Dual Independent Bus) 
Mở rộng băng thông của bus dữ liệu nhập/xuất, với việc tách thành hai bus độc lập: 
FSB (Front Side Bus) : cho hệ thống (bảng mạch chính) 
BSB (Back Side Bus) : cho cache L2, cho phép tăng tốc độ truy nhập cache 
Cache L2: tách khỏi mainboard để đưa lên cùng bản mạch bộ xử lý hoặc được tích hợp trong khuôn bộ xử lý 
C.Nghệ đa phương tiện tiên tiến SSE (Streaming SIMD Extensions) 
SSE là một cải tiến quan trọng của Pentium III, 
Thêm 70 lệnh mới: cải tiến xử lý dấu chấm động, xử lý âm thanh, hình ảnh, các ứng dụng 3D, nhận dạng tiếng nói tiên tiến và truy cập Internet 
3. CÁC BỘ XỬ LÝ CÔNG NGHỆ TIÊN TIẾN 
Intel® Core™ 
Intel® Pentium® 
Intel® Celeron® 
 Core™2 Extreme 
 Core™2 Quad 
 Core™2 Duo 
 Core™ Duo 
 Core™ Solo 
Pentium® 4/HT 
Pentium® D 
Pentium® dual-core 
Pentium® Extreme Edition 
Pentium® M 
Mobile Pentium® 4/HT 
 Celeron® D 
 Celeron® M 
 Celeron® 
PENTIUM 4 
Được thiết kế để đạt được hiệu suất cao đối với tính toán các số nguyên, dấu chấm động ở tần số cao. 
NetBurst gồm các công nghệ tích hợp : 
Bus hệ thống Quad Pumped 
Công nghệ siêu đường ống (Hyper Pipeline Technology) 
Động cơ thực hiện nhanh REE (Rapid Execution Engine) 
Thực thi động tiên tiến (Advanced Dynamic Execution) 
Cache ETC (Execution Trace Cache) 
Cache vận chuyển tiên tiến ATC (Advanced Transfer Cache) 
SSE2 (Streaming SIMD Extention 2) 
Vi kiến trúc NetBurst 
PENTIUM 4 
Bus hệ thống Quad Pumped 
Mở rộng băng thông bus FSB, nâng cao tốc độ truyền 
Cho phép kết nối và sử dụng bộ nhớ DRAM tốc độ cao 
Thực hiện truyền 4-bit trong 1 nhịp đồng hồ thay vì 1-bit như trước 
Với FSB 400: 3.2 GiB/s với xung nhịp 100MHz 
Các bộ xử lý sau được tăng cường với FSB 533, 800 
Công nghệ siêu đường ống (Hyper Pipeline Technology) 
Nhiều ống lệnh  nâng cao tốc độ xử lý. 
Siêu đường ống lệnh của Pentium IV với 20 phân đoạn, nâng cao khả năng xử lý. 
Sử dụng L1 cache ETC, khả năng dự đoán rẽ nhánh cao giúp cho Pentium IV có tốc độ xử lý vượt trội so với các thế hệ trước đó 
PENTIUM 4 
Động cơ thực hiện nhanh REE 
Thiết kế để giảm bớt thời gian trễ thực thi các chỉ lệnh số nguyên. 
2 ALU nhanh thực hiện các tính toán số học và logic đơn giản 
1 ALU chậm thực hiện các tính toán phức tạp 
2 AGU giải quyết các địa chỉ gián tiếp chạy gấp đôi tốc độ vi xử lý. 
 Pentium IV xử lý gấp đôi số lệnh trong một chu kỳ nhịp 
Thực thi động tiên tiến (Advanced Dynamic Execution) 
Thiết kế sâu hơn, tiên đoán xa hơn và cải tiến giải thuật tiên đoán nhánh lệnh để giảm bớt trường hợp tiên đoán sai. 
Với 20 phân đoạn (Prescott là 31)  1 lệnh nếu dự đoán sai xảy ra ở các phân đoạn cuối, sẽ bị hủy toàn bộ, gây lãng phí lớn về thời gian 
Đơn vị rẽ nhánh (Branch Predition) với kỹ thuật thực thi suy đoán song song, sẽ tăng số chỉ lệnh được dự đoán lên 126 so với 42 trong kiến trúc P6  Khả năng dự đoán rẽ nhánh đúng đến 95%. 
PENTIUM 4 
SSE2 (Streaming SIMD Extention 2) 
SSE2 được mở rộng từ SSE và MMX với 144 lệnh mới, giảm số lệnh thực thi và tăng tốc độ xử lý. 
SSE2 tăng hiệu quả thực thi các ứng dụng 3D, nén và giải nén, nhận dạng tiếng nói 
Cache vận chuyển tiên tiến ATC 
Cache L2 dùng cache ATC làm việc với tần số của bộ xử lý. 
ATC 8-way set kết nối trực tiếp trên chip (on-die) bằng bus 256-bit 
Khác biệt ? 
ATC của PIV vận chuyển dữ liệu trên từng nhịp đồng hồ  đạt đủ tốc độ nhịp đồng hồ (PIV/1.5GHz đạt tốc độ 48 GiB/s) 
ATC của PIII vận chuyển trên từng chu kỳ nhịp  chỉ đạt một nửa tốc độ (PIII/1GHz đạt 16GiB/s) . 
PENTIUM 4 
ETC (Execution Trace Cache) 
ICache được thay bằng cache thực hiện theo vết ETC. 
Đơn vị giải mã sẽ chuyển các lệnh CISC thành các vi thao tác đơn giản hơn và cất giữ trong ETC 
Nếu dự đoán rẽ nhánh sai những vi thao tác sẽ được lấy từ ETC và đưa vào thực hiện trong ống lệnh mà không cần tiến hành lại từ đầu 
Công nghệ lõi của Pentium 4 
Willamette: 0.18 μ m 
Northwood: 0.13 μ m 
Prescott: 0.09 μ m (90nm) 
Cedar Mil l: 0.09 μ m (90nm) 
Gallatin: 0.13 μ m (Pentium EE) 
Công nghệ siêu phân luồng HT (Hyper Threading Technology) 
Tăng cường khả năng chạy đa ứng dụng trong cùng một thời điểm  tăng năng suất xử lý. 
Cho phép CPU chạy hai loạt chuỗi hoặc luồng lệnh trong cùng một thời điểm  Có thể xử lý nhiều thông tin cùng một lúc 
Bộ xử lý CPU 
Hỗ trợ công nghệ HT (Các CPU P4 FSB 800, với FSB 533 là P4 3.06) 
Chipset và BIOS 
Chipset và BIOS hỗ trợ công nghệ HT (từ i845) 
Hệ điều hành hỗ trợ HT 
Windows XP Professional Edition, XP Home Edittion, hay Red Had Linux9, SuSE Linux 8.2, Red Flag Linux Desktop 4.0, COSIX Linux 4.0 
Công nghệ HT yêu cầu? 
Xu hướng Bộ xử lý đa nhân (Multi Core) 
Các tác vụ trở nên phức tạp, 
Các ứng dụng đa luồng. 
Yêu cầu về tốc độ xử lý 
Giải pháp thực hiện 
Nâng cao tốc độ xung của CPU 
Hệ thống đa xử lý 
Các bộ xử lý đa nhân 
Single Core 
MultiProcessor 
Multi Core 
Xu hướng Bộ xử lý đa nhân (Multi Core) 
Tốc độ xung có phải là yếu tố quyết định hiệu năng của CPU ? 
Nâng cao tốc độ xung có phải là cách duy nhất để nâng cao hiệu năng của bộ xử lý? 
Tốc độ xung và hiệu năng của CPU 
Hiệu năng = Tốc độ xung x IPC (Instruction Per Clock) 
Sự phụ thuộc của IPC vào kiến trúc CPU: 
Kiến trúc đường ống lệnh pipeline 
Khả năng dự đoán rẽ nhánh lệnh 
Cache, FPU, bộ nhớ, FSB ... 
Hiệu năng không tăng đều với sự gia tăng tốc độ xung. 
Tốc độ xung không phải là yếu tố duy nhất quyết định hiệu năng của bộ xử lý 
Những yếu tố hạn chế việc nâng cao tốc độ xung: 
Mức độ tiêu thụ năng lượng tăng cao khi nâng cao tốc độ xung 
Nhiệt lượng lớn  giải pháp case và tản nhiệt cho phù hợp 
Chi phí chế tạo và giá thành sản phẩm sẽ tăng 
Tốc độ xung chỉ là 1 trong các yếu tố nâng cao hiệu năng 
Xu hướng Bộ xử lý đa nhân (Multi Core) 
Gồm nhiều CPU giống nhau cùng thực hiện một nhiệm vụ chung hay các nhiệm vụ được chia xẻ. 
Khác với hệ thống nhiều máy tính mạng: gồm nhiều máy tính thực hiện các nhiệm vụ riêng biệt. 
Đa xử lý (MultiProcessor) 
Kiến trúc đa xử lý được thực thi trong một máy tính cho phép: 
Nâng cao hiệu suất và độ tin cậy của hệ thống 
Thực thi chủ yếu trong các máy chủ và số ít máy PC 
Tiến trình thực hiện: 
Thực thi các nhiệm vụ lớn: các CPU sẽ cùng chia sẻ tải, 
Các nhiệm vụ nhỏ: sẽ đồng thời thực hiện (xử lý song song) để tăng cường tốc độ xử lý. 
Khi 1 CPU gặp sự cố  nhiệm vụ được phân chia cho các CPU còn lại. Hệ thống tiếp tục hoạt động, dù hiệu suất có giảm. 
Xu hướng Bộ xử lý đa nhân (Multi Core) 
2002: xu hướng CPU đơn nhân cho các máy PC vẫn chiếm ưu thế. 
2005: Chủ đề " Bộ xử lý đa nhân " cùng đánh giá “ Hiệu năng trên công suất tiêu thụ "  xu hướng mới cho các bộ xử lý. 
Hiệu năng hệ thống đa CPU cao hơn H.T CPU đa nhân 
Đa xử lý: sự gia tăng hiệu năng gần như mức tuyến tính. 
Đa nhân: đạt được mức độ gia tăng hiệu năng đến 70-80% 
H.T Đa CPU: mỗi CPU có bus dữ liệu tới CPU riêng, 
H.T CPU đa nhân: các nhân phải dùng chung 1 bus dữ liệu 
Vấn đề khác: 
Chi phí cho đa xử lý cao hơn so với CPU đa nhân: cả giá CPU và cả giá mainboard cũng đắt hơn. 
Thị trường của hệ thống đa CPU hạn hẹp: workstation và server 
Thị trường CPU đa nhân mở rộng: khi được ứng dụng rộng rãi cho cả các máy để bàn PC, máy notebook 
MultiProcessor 
Multi Core 
or 
BỘ XỬ LÝ ĐA NHÂN 
Các bộ xử lý đa nhân sử dụng các mainboard chỉ cần 1 đế cắm CPU chứ không cần phải nhiều đế như trong hệ thống đa xử lý 
Tốc độ mỗi core và ảnh hưởng thế nào đến việc tăng tốc độ thực hiện khi sử dụng đa nhân? 
Các chương trình khác nhau thì sẽ tận dụng được sức mạnh của dual core khác nhau? 
PENTIUM D 
Là bộ xử lý 2 nhân đầu tiên của Intel, dựa trên kiến trúc Netburst 
Hiện thực hóa CPU ảo HT thành CPU vật lý thực sự. 
D800 giống như đặt 2 core Prescott trên cùng 1 khuôn (die). 
Đặt hai lõi gần nhau làm cho giao tiếp giữa chúng nhanh chóng hơn do độ trễ thấp. 
Smithfield (Pentium D800) 
Nhược điểm làm hạn chế hiệu năng CPU: 
Hiện tượng thắt cổ chai dữ liệu: giao tiếp với nhau phải thông qua FSB 
Băng thông FSB hạn chế: không mở rộng, vẫn hạn chế ở mức 800MHz/CPU hay 400MHz cho mỗi lõi  tốc độ tính toán tăng đôi, nhưng bandwidth cho mỗi core thì không 
Nhiệt lượng tỏa ra lớn và chi phí sản xuất cao: số transistor trên mỗi die tăng gấp đôi cần giải quyết vấn đề tản nhiệt 
PENTIUM D 
Kiến trúc AMD tích hợp thành phần cầu bắc của chipset lên CPU 
Là thành phần điều khiển bộ nhớ được tích hợp lên CPU 
Được kế thừa trong CPU lõi kép  Tạo nên ưu điểm cho AMD 
Khác biệt với AMD 
Truyền dữ liệu của AMD ít gặp phải hiện tượng "thắt cổ chai“ 
Intel sử dụng giải pháp truyền thông tin qua FSB giữa hai lõi 
AMD sử dụng công nghệ HyperTransport: 
CPU đưa ra các yêu cầu trên hệ thống SRQ (System Request Queue) 
Khi hệ thống rỗi, các yêu cầu sẽ được gửi tới lõi để thực hiện. 
Chỉ tiến hành trên die của CPU nên tốc độ rất nhanh. 
Ưu điểm này thể hiện rõ khi xử lý các ứng dụng nặng, đa luồng (Multitasking/Multithreaded). 
Thiết kế dual-core, AMD không cần phải cải tiến nhiều và hệ thống của AMD có nhiều lợi thế 
PENTIUM D 
Presler là sự kế thừa Smithfield 
Hiệu năng cao hơn, nhiều tính năng mới và sử dụng ít điện hơn 
Presler (Pentium D900) 
Sự thay đổi lớn trong thiết kế: 
Smithfield , đặt cả hai nhân vào chung một khuôn lớn 
Presler , hai nhân tách ra, mỗi nhân được sản xuất độc lập và gắn lại chung với nhau trên một chip; 
Giống như gồm 2 lõi nhỏ kết nối với nhau qua 1 bus tốc độ cao. 
Presler  mô hình cấu trúc lõi kép (Dual Core) thực sự, 	 Smithfield là cấu trúc lõi đôi (Double Core). 
Quy trình 65nm, kích thước die ít thay đổi. 
Nhiệt tỏa ra cũng ít hơn, CPU hoạt động sẽ mát hơn nhiều. 
Cache L2 2x2MiB (Smithfield 2x1MiB của), gấp 2 Athlon 64X2. 
Việc sản xuất đơn giản hơn, giá thành sản xuất giảm 
PENTIUM D 
Pentium D và P. Extreme Edition vẫn sử dụng trên cơ sở vi kiến trúc Netburst . 
Được bổ sung nhiều công nghệ mới, mang lại các tính năng tăng cường 
Các công nghệ tăng cường : 
Enhanced Intel® SpeedStep Technology (EIST) 
Extended Memory 64 Technology (EM64T) 
Excute Disable Bit (XD Bit) 
Streaming SIMD Extention 3 (SSE3) 
Virtualization Technology (Intel® VT) 
PENTIUM D 
Cho phép CPU có thể tự điều chỉnh tần số và điện áp sử dụng 
Giảm thiểu công suất để giảm mức tiêu thụ điện năng  giảm nhiệt phát ra khi không có nhiều yêu cầu xử lý 
Chipset cũng cần hỗ trợ EIST 
Enhanced Intel® SpeedStep Technology (EIST) 
Extended Memory 64 Technology (EM64T) 
Hỗ trợ các chỉ lệnh 64-bit, cho phép truy cập bộ nhớ vật lý và bộ nhớ ảo lớn hơn, xử lý nhiều dữ liệu hơn cho bộ nhớ chính. 
Hệ thống sẽ truy xuất trực tiếp từ RAM, ít phải truy xuất dữ liệu từ ổ cứng  nâng cao hiệu quả, khai thác tối đa HĐH 64-bit 
PENTIUM D 
Hoàn thiện tính năng bảo mật của hệ thống 
Vô hiệu hóa các mã nguy hiểm không được phép chạy trong bộ nhớ, nâng cao khả năng chống virus 
Excute Disable Bit (XD bit) 
Virtualization Technology (Intel® VT) 
Công nghệ ảo hóa Intel®VT, cho phép nâng cao độ bảo mật 
Cho phép tách các môi trường phần cứng độc lập riêng lẻ bên trong một máy tính đơn, 
Cho phép chạy nhiều HĐH trên cùng một chip, trong những phân khu khác nhau 
SSE3 
Thêm13 lệnh mới so với SSE2, cải thiện hoạt động của công nghệ siêu phân luồng HT cho hiệu quả hơn 
Tăng cường các chức năng multimedia và Internet cho hệ thống 
Core™ Duo và Core™2 Duo 
Core TM 2 Duo với kiến trúc hoàn toàn mới 
Nhiều công nghệ tích hợp 
Vi kiến trúc Core™ 
Intel® Core™ Microarchitecture: 
Thực thi động mở rộng (Wide Dynamic Execution) 
Quản lý điện năng thông minh (Intelligent Power Capability) 
Đệm thông minh tiên tiến (Advanced Smart Cache) 
Truy xuất bộ nhớ thông minh (Smart Memory Access) 
Tăng tốc phương tiện số tiên tiến (Advanced Digital Media Boost) 
Core™ Duo và Core™2 Duo 
Nâng cao tốc độ và hiệu quả thực hiện chương trình, 
Mỗi core có thể thực thi đồng thời 4 lệnh trong một nhịp đồng hồ, 
Nâng cao hiệu năng, cho phép thực hiện được nhiều công việc hơn trong thời gian ngắn hơn. 
Wide Dynamic Execution (Thực thi động mở rộng) 
Intelligent Power Capability (Quản lý điện năng thông minh) 
Tối ưu hóa việc sử dụng năng lượng của các nhân trong bộ xử lý bằng cách chỉ bật chức năng tính toán khi cần. 
Nếu không có hoạt động, hệ thống trở về trạng thái ngủ giúp giảm lượng điện năng tiêu thụ đáng kể mà không ảnh hưởng hiệu xuất của toàn hệ thống. 
Core™ Duo và Core™2 Duo 
Shared cache L2 4MB, 16-way dùng chung 
Phân chia động theo nhu cầu của mỗi nhân, tăng hiệu quả sử dụng 
Nếu 2 nhân cần sử dụng một dữ liệu giống nhau,  lưu tại 1 nơi trong L2 chung, không cần lưu thành 2 bản tại hai vùng L2 riêng 
Giảm thiểu thời gian nạp cache do hiện tượng nạp 2 lần trên hai cache và dung lượng hữu dụng của cache sẽ được tối ưu. 
Advanced Smart Cache (Đệm thông minh tiên tiến) 
CPU Core 
L1 Cache 
CPU Core 
L1 Cache 
L2 Cache 
L2 Cache 
Dual core 
CPU Core 
L1 Cache 
CPU Core 
L1 Cache 
Core2 Duo 
L2 Cache 
Core™ Duo và Core™2 Duo 
Tối ưu hóa việc sử dụng băng thông dữ liệu hiện có, làm giảm thời gian chờ dữ liệu cho các lệnh bên trong CPU. 
Có hai kỹ thuật: Nạp trước dữ liệu và bộ nạp lệnh tiên tiến 
tăng hiệu quả động cơ suy đoán thực hiện lệnh, giảm thiểu khả năng “trượt” cache 
Smart Memory Access (Truy xuất bộ nhớ thông minh) 
Advanced Digital Media Boost (Tăng tốc P. tiện số tiên tiến ) 
Cải thiện hiệu năng một cách đáng kể trên các ứng dụng video, hình ảnh, xử lý ảnh, đồ họa, mã hóa, 
Hỗ trợ xử lý các lệnh SIMD 128-bit, tăng tốc thực thi lệnh Streaming SIMD Extension (SSE) 
Rút ngắn 2 lần thời gian xử lý dữ liệu các ứng dụng multimedia 

File đính kèm:

  • pptbai_giang_mon_kien_truc_may_tinh_chuong_3_bo_xu_ly.ppt