【導讀】為解決各種問題,人們發(fā)明了不計其數(shù)的機器。計算機種類繁多,從嵌入火星漫游機器人的計算機到為操縱核潛艇導航系統(tǒng)的計算機,不一而足。馮• 諾伊曼在1945 年提出第一種計算模型,無論筆記本電腦還是電話,幾乎所有計算機都遵循與這種模型相同的工作原理。那么你們了解計算機是如何工作的嗎?本文將討論這些內(nèi)容:
◎ 理解計算機體系結構的基礎知識
◎ 選擇編譯器將代碼轉(zhuǎn)換為計算機可以執(zhí)行的指令
◎ 根據(jù)存儲器層次結構提高數(shù)據(jù)的存儲速度
畢竟,在非程序員看來,編程要像魔法一樣神奇,我們程序員不會這么看。
體系結構
計算機是一種根據(jù)指令操作數(shù)據(jù)的機器,主要由處理器與存儲器兩部分組成。存儲器又稱RAM(隨機存取存儲器),用于存儲指令以及需要操作的數(shù)據(jù)。處理器又稱CPU(中央處理器),它從存儲器獲取指令與數(shù)據(jù),并執(zhí)行相應的計算。接下來,我們將討論這兩部分的工作原理。
存儲器
存儲器被劃分為許多單元,每個單元存儲少量數(shù)據(jù),通過一個數(shù)字地址加以標識。在存儲器中讀取或?qū)懭霐?shù)據(jù)時,每次對一個單元進行操作。
為讀寫特定的存儲單元,必須找到該單元的數(shù)字地址。
由于存儲器是一種電氣元件,單元地址作為二進制數(shù)通過信號線傳輸。
二進制數(shù)以 2 為基數(shù)表示,其工作原理如下:
每條信號線傳輸一個比特,以高電壓表示信號“1”,低電壓表示信號“0”,如圖7-1 所示。
對于某個給定的單元地址,存儲器可以進行兩種操作:獲取其值或存儲新值,如圖7-2 所示。存儲器包括一條用于設置操作模式的特殊信號線。
每個存儲單元通常存儲一個 8 位二進制數(shù),它稱為字節(jié)。設置為“讀”模式時,存儲器檢索保存在單元中的字節(jié),并通過8 條數(shù)據(jù)傳輸線輸出,如圖7-3 所示。
設置為“寫”模式時,存儲器從數(shù)據(jù)傳輸線獲取一個字節(jié),并將其寫入相應的單元,如圖7-4 所示。
傳輸相同數(shù)據(jù)的一組信號線稱為總線。用于傳輸?shù)刂返? 條信號線構成地址總線,用于在存儲單元之間傳輸數(shù)據(jù)的另外8 條信號線構成數(shù)據(jù)總線。地址總線是單向的(僅用于接收數(shù)據(jù)),而數(shù)據(jù)總線是雙向的(用于發(fā)送和接收數(shù)據(jù))。
在所有計算機中,CPU 與RAM 無時無刻不在交換數(shù)據(jù):CPU 不斷從RAM 獲取指令與數(shù)據(jù),偶爾也會將輸出與部分計算存儲在RAM 中,如圖7-5 所示。
CPU
CPU 包括若干稱為寄存器的內(nèi)部存儲單元,它能對存儲在這些寄存器中的數(shù)字執(zhí)行簡單的數(shù)學運算,也能在RAM 與寄存器之間傳輸數(shù)據(jù)??梢灾甘綜PU 執(zhí)行以下典型的操作:
◎ 將數(shù)據(jù)從存儲位置 220 復制到寄存器 3;
◎ 將寄存器 3 與寄存器 1 中的數(shù)字相加。
CPU 可以執(zhí)行的所有操作的集合稱為指令集,指令集中的每項操作被分配一個數(shù)字。計算機代碼本質(zhì)上是表示CPU 操作的數(shù)字序列,這些操作以數(shù)字的形式存儲在RAM 中。輸入/ 輸出數(shù)據(jù)、部分計算以及計算機代碼都存儲在RAM 中。
通過在RAM 中包含重寫部分代碼的指令,代碼甚至可以對自身修改,這是計算機病毒逃避反病毒軟件檢測的慣用手法。與之類似,生物病毒通過改變自身的DNA以躲避宿主免疫系統(tǒng)的打擊。
圖7-6 取自Intel 4004 操作手冊,顯示了部分CPU 指令映射為數(shù)字的方法。隨著制造工藝的發(fā)展,CPU 支持的操作越來越多?,F(xiàn)代CPU 的指令集極為龐大,但最重要的指令在幾十年前就已存在。
CPU 的運行永無休止,它不斷從存儲器獲取并執(zhí)行指令。這個周期的核心是PC 寄存器,PC (program counter)是“程序計數(shù)器”的簡稱。PC 是一種特殊的寄存器,用于保存下一條待執(zhí)行指令的存儲地址。CPU 的工作流程如下:
(1) 從PC 指定的存儲地址獲取指令;
(2) PC 自增;
(3) 執(zhí)行指令;
(4) 返回步驟1。
PC 在CPU 上電時復位為默認值,它是計算機中第一條待執(zhí)行指令的地址。這條指令通常是一種不可變的內(nèi)置程序,用于加載計算機的基本功能。
在許多個人計算機中,這種程序稱為BIOS(基本輸入輸出系統(tǒng))。
CPU 上電后將繼續(xù)執(zhí)行這種“獲取- 執(zhí)行”周期直至關機。然而,如果CPU 只能遵循有序、順序的操作列表,那么它與一個花哨的計算器并無二致。CPU 的神奇之處在于可以指示它向PC 中寫入新值,從而實現(xiàn)執(zhí)行過程的分支,或“跳轉(zhuǎn)”到存儲器的其他位置。這種分支可以是有條件的。以下面這條CPU 指令為例:“如果寄存器1 等于0,將PC設置為地址200”。該指令相當于:
if x = 0
compute_this()
else
compute_that()
僅此而已。無論是打開網(wǎng)站、玩計算機游戲抑或編輯電子表格,所涉及的計算并無區(qū)別,都是一系列只能對存儲器中的數(shù)據(jù)求和、比較或移動的簡單操作。
大量簡單的操作組合在一起,就能表達復雜的過程。以經(jīng)典的《太空侵略者》游戲為例,其代碼包括大約3000 條機器指令。
CPU 時鐘 早在20 世紀80 年代,《太空侵略者》就已風靡一時。這個游戲在配備2 MHz CPU 的街機上運行。“2 MHz”表示CPU 的時鐘,即CPU 每秒可以執(zhí)行的基本操作數(shù)。時鐘頻率為200 萬赫茲(2 MHz)的CPU 每秒大約可以執(zhí)行200 萬次基本操作。完成一條機器指令需要5到10 次基本操作,因此老式街機每秒能運行數(shù)十萬條機器指令。
隨著現(xiàn)代科技的進步,普通的臺式計算機與智能手機通常配備2 GHzCPU,每秒可以執(zhí)行數(shù)億條機器指令。時至今日,多核CPU 已投入大規(guī)模應用,如四核2 GHz CPU 每秒能執(zhí)行近10 億條機器指令。展望未來,CPU 配備的核心數(shù)量或許會越來越多。
CPU 體系結構 讀者是否思考過,PlayStation 的游戲CD 為何無法在臺式計算機中運行?iPhone 應用為何無法在Mac 中運行?原因很簡單,因為它們的CPU 體系結構不同。
x86 體系結構如今已成為行業(yè)標準,因此相同的代碼可以在大部分個人計算機中執(zhí)行。但考慮到節(jié)電的要求,手機采用的CPU 體系結構有所不同。不同的CPU 體系結構意味著不同的CPU 指令集,也意味著將指令編碼為數(shù)字的方式各不相同。臺式計算機CPU 的指令并非手機CPU的有效指令,反之亦然。
32 位與64 位體系結構 第一種CPU 是Intel 4004,它采用4 位體系架構。換言之,這種CPU 在一條機器指令中可以對最多4 位二進制數(shù)執(zhí)行求和、比較與移動操作。Intel 4004 的數(shù)據(jù)總線與地址總線均只有4 條。
不久之后,8 位CPU 開始廣為流行,這種CPU 用于運行DOS 的早期個人計算機。20 世紀八九十年代,著名的便攜式游戲機Game Boy 就采用8 位處理器。這種CPU 可以在一條指令中對8 位二進制數(shù)進行操作。
技術的快速發(fā)展使16 位以及之后的32 位體系結構成為主導。CPU 寄存器隨之增大,以容納32 位數(shù)字。更大的寄存器自然催生出更大的數(shù)據(jù)總線與地址總線:具有32 條信號線的地址總線可以對232 字節(jié)(4 GB)的內(nèi)存進行尋址。
人們對計算能力的渴求從未停止。計算機程序越來越復雜,消耗的內(nèi)存越來越多,4 GB 內(nèi)存已無法滿足需要。使用適合32 位寄存器的數(shù)字地址對超過4 GB 內(nèi)存進行尋址頗為棘手,這成為64 位體系結構興起的動因,這種體系結構如今占據(jù)主導地位。64 位CPU 可以在一條指令中對極大的數(shù)字進行操作,而64 位寄存器將地址存儲在海量的存儲空間中:264 字節(jié)相當于超過170 億吉字節(jié)(GB)。
大端序與小端序 一些計算機設計師認為,應按從左至右的順序在RAM 與CPU 中存儲數(shù)字,這種模式稱為小端序。另一些計算機設計師則傾向于按從右至左的順序在存儲器中寫入數(shù)據(jù),這種模式稱為大端序。因此,根據(jù)“字節(jié)序”的不同,二進制序列1-0-0-0-0-0-1-1 表示的數(shù)字也有所不同。
◎ 大端序:27 + 21 + 20 = 131
◎ 小端序:20 + 26 + 27 = 193
目前的大部分CPU 采用小端序模式,但同樣存在許多采用大端序模式的計算機。如果大端序CPU 需要解釋由小端序CPU 產(chǎn)生的數(shù)據(jù),則必須采取措施以免出現(xiàn)字節(jié)序不匹配。程序員直接對二進制數(shù)進行操作,在解析來自網(wǎng)絡交換機的數(shù)據(jù)時尤其需要注意這個問題。雖然目前多數(shù)計算機采用小端序模式,但由于大部分早期的網(wǎng)絡路由器使用大端序CPU,所以因特網(wǎng)流量仍然以大端序為基礎進行標準化。以小端序模式讀取大端序數(shù)據(jù)時將出現(xiàn)亂碼,反之亦然。
模擬器 某些情況下,需要在計算機上運行某些為不同CPU 設計的代碼,以便在沒有iPhone 的情況下測試iPhone 應用,或玩膾炙人口的老式超級任天堂游戲。這是通過稱為模擬器的軟件來實現(xiàn)的。
模擬器用于模仿目標機器,它假定與其擁有相同的CPU、RAM 以及其他硬件。模擬器程序?qū)χ噶钸M行解碼,并在模擬機器中執(zhí)行??梢韵胍?,如果兩臺機器的體系結構不同,那么在一臺機器內(nèi)部模擬另一臺機器絕非易事。好在現(xiàn)代計算機的速度遠遠超過之前的機器,因此模擬并非無法實現(xiàn)。我們可以利用Game Boy 模擬器在計算機中創(chuàng)建一個虛擬的Game Boy,然后就能像使用實際的Game Boy 那樣玩游戲。
編譯器
通過對計算機進行編程,可以完成核磁共振成像、聲音識別、行星探索以及其他許多復雜的任務。值得注意的是,計算機執(zhí)行的所有操作最終都要通過簡單的CPU 指令完成,即歸結為對數(shù)字的求和與比較。而Web 瀏覽器等復雜的計算機程序需要數(shù)百萬乃至數(shù)十億條這樣的機器指令。
但我們很少會直接使用CPU 指令來編寫程序,也無法采用這種方式開發(fā)一個逼真的三維計算機游戲。為了以一種更“自然”且更緊湊的方式表達命令,人們創(chuàng)造了編程語言。我們使用這些語言編寫代碼,然后通過一種稱為編譯器的程序?qū)⒚钷D(zhuǎn)換為CPU 可以執(zhí)行的機器指令。
我們用一個簡單的數(shù)學類比來解釋編譯器的用途。假設我們向某人提問,要求他計算5 的階乘。
5! = ?
但如果回答者不了解什么是階乘,則這樣提問并無意義。我們必須采用更簡單的操作來重新表述問題。
5×4×3×2×1 = ?
不過,如果回答者只會做加法怎么辦?我們必須進一步簡化問題的表述。
5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 +5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 = ?
可以看到,表達計算的形式越簡單,所需的操作數(shù)量越多。計算機代碼同樣如此。編譯器將編程語言中的復雜指令轉(zhuǎn)換為等效的CPU 指令。結合功能強大的外部庫,就能通過相對較少的幾行代碼表示包含數(shù)十億條CPU 指令的復雜程序,而這些代碼易于理解和修改。
計算機之父艾倫• 圖靈發(fā)現(xiàn),簡單的機器有能力計算任何可計算的事物。如果機器具有通用的計算能力,那么它必須能遵循包含指令的程序,以便:
◎ 對存儲器中的數(shù)據(jù)進行讀寫;
◎ 執(zhí)行條件分支:如果存儲地址具有給定的值,則跳轉(zhuǎn)到程序的另一個點。
我們稱具有這種通用計算能力的機器是圖靈完備的。無論計算的復雜性或難度如何,都可以采用簡單的讀取/ 寫入/ 分支指令來表達。只要分配足夠的時間與存儲空間,這些指令就能計算任何事物。
人們最近發(fā)現(xiàn),一種稱為MOV(數(shù)據(jù)傳送)的CPU 指令是圖靈完備的。這意味著僅能執(zhí)行MOV 指令的CPU 與完整的CPU 在功能上并無不同:換言之,通過MOV 指令可以嚴格地表達任何類型的代碼。
這個重要概念在于,無論簡單與否,如果程序能采用編程語言進行編碼,就可以重寫后在任何圖靈完備的機器中運行。編譯器是一種神奇的程序,能自動將代碼從復雜的語言轉(zhuǎn)換為簡單的語言。
操作系統(tǒng)
從本質(zhì)上講,編譯后的計算機程序是CPU 指令的序列。如前所述,為臺式計算機編譯的代碼無法在智能手機中運行,因為二者采用不同的CPU體系結構。不過,由于程序必須與計算機的操作系統(tǒng)通信才能運行,編譯后的程序也可能無法在共享相同CPU 架構的兩臺計算機中使用。
為實現(xiàn)與外界的通信,程序必須進行輸入與輸出操作,如打開文件、在屏幕上顯示消息、打開網(wǎng)絡連接等。但不同的計算機采用不同的硬件,因此程序不可能直接支持所有不同類型的屏幕、聲卡或網(wǎng)卡。
這就是程序依賴于操作系統(tǒng)執(zhí)行的原因所在。借助操作系統(tǒng)的幫助,程序可以毫不費力地使用不同的硬件。程序創(chuàng)建特殊的系統(tǒng)調(diào)用,請求操作系統(tǒng)執(zhí)行所需的輸入/ 輸出操作。編譯器負責將輸入/ 輸出命令轉(zhuǎn)換為合適的系統(tǒng)調(diào)用。
然而,不同的操作系統(tǒng)往往使用互不兼容的系統(tǒng)調(diào)用。例如,與macOS或Linux 相比,Windows 在屏幕上打印信息所用的系統(tǒng)調(diào)用有所不同。
因此,在使用x86 處理器的Windows 中編譯的程序,無法在使用x86處理器的Mac 中運行。除針對特定的CPU 體系結構外,編譯后的代碼還會針對特定的操作系統(tǒng)。
編譯優(yōu)化
優(yōu)秀的編譯器致力于優(yōu)化它們生成的機器碼。如果編譯器認為可以通過修改部分代碼來提高執(zhí)行效率,則會處理。在生成二進制輸出之前,編譯器可能嘗試應用數(shù)百條優(yōu)化規(guī)則。
因此,應使代碼易于閱讀以利于進行微優(yōu)化。編譯器最終將完成所有細微的優(yōu)化。例如,一些人對以下代碼頗有微詞。
function factorial(n)
if n > 1
return factorial(n - 1) * n
else
return 1
他們認為應該進行以下修改:
function factorial(n)
result ← 1
while n > 1
result ← result * n
n ← n - 1
return result
誠然,在不使用遞歸的情況下執(zhí)行factorial 函數(shù)將消耗較少的計算資源,但仍然沒有理由因此而改變代碼。現(xiàn)代編譯器將自動重寫簡單的遞歸函數(shù),舉例如下。
i ← x + y + 1
j ← x + y
為避免進行兩次x+y 計算,編譯器將上述代碼重寫為:
t1 ← x + y
i ← t1 + 1
j ← t1
應專注于編寫清晰且自解釋的代碼。如果性能出現(xiàn)問題,可以利用分析工具尋找代碼中的瓶頸,并嘗試改用更好的方法計算存在問題的代碼。此外,避免在不必要的微操作上浪費太多時間。
但在某些情況下,我們希望跳過編譯,接下來將對此進行討論。
腳本語言
某些語言在執(zhí)行時并未被直接編譯為機器碼,這些語言稱為腳本語言,包括JavaScript、Python 以及Ruby。在腳本語言中,代碼由解釋器而非CPU 執(zhí)行,解釋器必須安裝在運行代碼的機器中。
解釋器實時轉(zhuǎn)譯并執(zhí)行代碼,因此其運行速度通常比編譯后的代碼慢得多。但另一方面,程序員隨時都能立即運行代碼而無須等待編譯過程。
對于規(guī)模極大的項目,編譯可能耗時數(shù)小時之久。
Google 工程師必須不斷編譯大量代碼,導致程序員“損失”了很多時間(圖7-9)。由于需要保證編譯后的二進制文件有更好的性能,Google 無法切換到腳本語言。公司為此開發(fā)了Go 語言,它的編譯速度極快,同時仍然保持很高的性能。
反匯編與逆向工程
給定一個已編譯的計算機程序,無法在編譯之前恢復其源代碼。但我們可以對二進制程序解碼,將用于編碼CPU 指令的數(shù)字轉(zhuǎn)換為人類可讀的指令序列。這個過程稱為反匯編。
接下來,可以查看這些CPU 指令,并嘗試分析它們的用途,這就是所謂的逆向工程。某些反匯編程序?qū)@一過程大有裨益,它們能自動檢測并注釋系統(tǒng)調(diào)用與常用函數(shù)。借由反匯編工具,黑客對二進制代碼的各個環(huán)節(jié)了如指掌。我相信,許多頂尖的IT 公司都設有秘密的逆向工程實驗室,以便研究競爭對手的軟件。
地下黑客經(jīng)常分析Windows、Photoshop、《俠盜獵車手》等授權程序中的二進制代碼,以確定哪部分代碼負責驗證軟件許可證。黑客將二進制代碼修改,在其中加入一條指令,直接跳轉(zhuǎn)到驗證許可證后執(zhí)行的代碼部分。運行修改后的二進制代碼時,它在檢查許可證前獲取注入的JUMP 命令,從而可以在沒有付費的情況下運行非法的盜版副本。
在秘密的政府情報機構中,同樣設有供安全研究人員與工程師研究iOS、Windows、IE 瀏覽器等流行消費者軟件的實驗室。他們尋找這些程序中可能存在的安全漏洞,以防御網(wǎng)絡攻擊或?qū)Ω邇r值目標的入侵。在這類攻擊中,最知名的當屬“震網(wǎng)”病毒,它是美國與以色列情報機構研制的一種網(wǎng)絡武器。通過感染控制地下聚變反應堆的計算機,“震網(wǎng)”延緩了伊朗核計劃。
開源軟件
如前所述,我們可以根據(jù)二進制可執(zhí)行文件分析有關程序的原始指令,但無法恢復用于生成二進制文件的原始源代碼。
在沒有原始源代碼的情況下,即使可以稍許修改二進制文件以便以較小的方式破解,實際上也無法對程序進行任何重大更改(如添加新功能)。一些人推崇協(xié)作構建代碼的方式,因此將自己的源代碼開放供他人修改。“開源”的主要概念就在于此:所有人都能自由使用與修改的軟件。基于Linux 的操作系統(tǒng)(如Ubuntu、Fedora 與Debian)是開源的,而Windows 與macOS 是閉源的。
開源操作系統(tǒng)的一個有趣之處在于,任何人都可以檢查源代碼以尋找安全漏洞。現(xiàn)已證實,政府機構通過日常消費者軟件中未修補的安全漏洞,對數(shù)百萬平民進行利用和監(jiān)視。
但對開源軟件而言,代碼受到的關注度更高,因此惡意的第三方與政府機構很難植入監(jiān)控后門程序。使用macOS 或Windows 時,用戶必須相信Apple 或Microsoft 對自己的安全不會構成危害,并盡最大努力防止任何嚴重的安全漏洞。而開源系統(tǒng)置于公眾的監(jiān)督之下,因此安全漏洞被忽視的可能性大為降低。
存儲器層次結構
我們知道,計算機的操作可以歸結為使CPU 執(zhí)行簡單的指令,這些指令只能對存儲在CPU 寄存器中的數(shù)據(jù)操作。但寄存器的存儲空間通常被限制在1000 字節(jié)以內(nèi),這意味著CPU 寄存器與RAM 之間必須不斷進行數(shù)據(jù)傳輸。
如果存儲器訪問速度過慢,CPU 將被迫處于空閑狀態(tài),以等待RAM 完成數(shù)據(jù)傳輸。CPU 讀寫存儲器中數(shù)據(jù)所需的時間與計算機性能直接相關。提高存儲器速度有助于加快計算機運行,也可以提高CPU 訪問數(shù)據(jù)的速度。CPU 能以近乎實時的速度(一個周期以內(nèi))訪問存儲在寄存器中的數(shù)據(jù),但訪問RAM 則慢得多。
對于時鐘頻率為1 GHz 的CPU,一個周期的持續(xù)時間約為十億分之一秒,這是光線從本書進入讀者眼中所需的時間。
處理器與存儲器之間的鴻溝
近年來的技術發(fā)展使得CPU 速度成倍增長。雖然存儲器速度同樣有所提高,但卻慢得多。CPU 與RAM 之間的這種性能差距稱為“處理器與存儲器之間的鴻溝”。我們可以執(zhí)行大量CPU 指令,因此它們很“廉價”;而從RAM 獲取數(shù)據(jù)所需的時間較長,因此它們很“昂貴”。隨著兩者之間的差距逐漸增大,提高存儲器訪問效率的重要性越發(fā)明顯。
現(xiàn)代計算機需要大約1000 個CPU 周期(1 微秒左右) 從RAM 獲取數(shù)據(jù)。這種速度已很驚人,但與訪問CPU 寄存器的時間相比仍然較慢。減少計算所需的RAM 操作次數(shù),是計算機科學家追求的目標。
在兩個面對面的人之間,聲波傳播需要大約10 微秒。
時間局部性與空間局部性
在嘗試盡量減少對RAM 的訪問時,計算機科學家開始注意到兩個事實。
◎ 時間局部性:訪問某個存儲地址時,可能很快會再次訪問該地址。
◎ 空間局部性:訪問某個存儲地址時,可能很快會訪問與之相鄰的地址。
因此,將這些存儲地址保存在CPU 寄存器中,有助于避免大部分對RAM的“昂貴”操作。不過在設計CPU 芯片時,工業(yè)工程師并未找到可行的方法來容納足夠多的內(nèi)部寄存器,但他們?nèi)匀话l(fā)現(xiàn)了如何有效地利用時間局部性與空間局部性。接下來將對此進行討論。
一級緩存
可以構建一種集成在CPU 內(nèi)部且速度極快的輔助存儲器,這就是一級緩存。將數(shù)據(jù)從一級緩存讀入寄存器,僅比直接從寄存器獲取數(shù)據(jù)稍慢。
利用一級緩存,我們將可能訪問的存儲地址中的內(nèi)容復制到CPU 寄存器附近,借此以極快的速度將數(shù)據(jù)載入CPU 寄存器。將數(shù)據(jù)從一級緩存讀入寄存器僅需大約10 個CPU 周期,速度是從RAM 獲取數(shù)據(jù)的近百倍。
借由10 KB 左右的一級緩存,并合理利用時間局部性與空間局部性,超過一半的RAM 訪問調(diào)用僅通過緩存就能實現(xiàn)。這一創(chuàng)新使計算技術發(fā)生了翻天覆地的變化。一級緩存可以極大縮短CPU 的等待時間,使CPU 將更多時間用于實際計算而非處于空閑狀態(tài)。
二級緩存
提高一級緩存的容量有助于減少從RAM 獲取數(shù)據(jù)的操作,進而縮短CPU 的等待時間。但是,增大一級緩存的同時也會降低它的速度。在一級緩存達到50 KB 左右時,繼續(xù)增加其容量就要付出極高的成本。更好的方案是構建一種稱為二級緩存的緩存。二級緩存的速度稍慢,但容量比一級緩存大得多?,F(xiàn)代CPU 配備的二級緩存約為200 KB,將數(shù)據(jù)從二級緩存讀入CPU 寄存器需要大約100 個CPU 周期。
我們將最有可能訪問的地址復制到一級緩存,較有可能訪問的地址復制到二級緩存。如果CPU 沒有在一級緩存中找到某個存儲地址,仍然可以嘗試在二級緩存中搜索。僅當該地址既不在一級緩存、也不在二級緩存中時,CPU 才需要訪問RAM。
目前,不少制造商推出了配備三級緩存的處理器。三級緩存的容量比二級緩存大,雖然速度不及二級緩存,但仍然比RAM 快得多。一級/ 二級/ 三級緩存非常重要,它們占據(jù)了CPU 芯片內(nèi)部的大部分硅片空間。見圖7-11。
使用一級/ 二級/ 三級緩存能顯著提高計算機的性能。在配備200 KB的二級緩存后,CPU 發(fā)出的存儲請求中僅有不到10% 必須直接從RAM獲取。
讀者今后購買計算機時,對于所挑選的CPU,請記住比較一級/ 二級/三級緩存的容量。CPU 越好,緩存越大。一般來說,建議選擇一款時鐘頻率稍低但緩存容量較大的CPU。
第一級存儲器與第二級存儲器
如前所述,計算機配有不同類型的存儲器,它們按層次結構排列。性能最好的存儲器容量有限且成本極高。沿層次結構向下,可用的存儲空間越來越多,但訪問速度越來越慢。
在存儲器層次結構中,位于CPU 寄存器與緩存之下的是RAM,它負責存儲當前運行的所有進程的數(shù)據(jù)與代碼。截至2017 年,計算機配備的RAM 容量通常為1 GB 到10 GB。但在許多情況下,RAM 可能無法滿足操作系統(tǒng)以及所有運行程序的需要。
因此,我們必須深入探究存儲器層次結構,使用位于RAM 之下的硬盤。截至2017 年,計算機配備的硬盤容量通常為數(shù)百吉字節(jié),足以容納當前運行的所有程序數(shù)據(jù)。如果RAM 已滿,當前的空閑數(shù)據(jù)將被移至硬盤以釋放部分內(nèi)存空間。
問題在于,硬盤的速度非常慢,它一般需要100 萬個CPU 周期(1 毫秒)a 在磁盤與RAM 之間傳輸數(shù)據(jù)。從磁盤訪問數(shù)據(jù)看似很快,但不要忘記,訪問RAM 僅需1000 個周期,而訪問磁盤需要100 萬個周期。RAM 通常稱為第一級存儲器,而存儲程序與數(shù)據(jù)的磁盤稱為第二級存儲器。
標準照片在大約4 毫秒內(nèi)捕捉光線。
CPU 無法直接訪問第二級存儲器。執(zhí)行保存在第二級存儲器中的程序之前,必須將其復制到第一級存儲器。實際上,每次啟動計算機時,即便是操作系統(tǒng)也要從磁盤復制到RAM,否則CPU 無法運行。
確保RAM 永不枯竭 在典型活動期間,確保計算機處理的所有數(shù)據(jù)與程序都能載入RAM 至關重要,否則計算機將不斷在磁盤與RAM 之間交換數(shù)據(jù)。由于這項操作的速度極慢,計算機性能將嚴重下降,甚至無法使用。這種情況下,計算機不得不花費更多時間等待數(shù)據(jù)傳輸,而無法進行實際的計算。
當計算機不斷將數(shù)據(jù)從磁盤讀入RAM 時,則稱計算機處于抖動模式。必須對服務器進行持續(xù)監(jiān)控,如果服務器開始處理無法載入RAM 的數(shù)據(jù),那么抖動可能會導致整個服務器崩潰。銀行或收銀機前將因此排起長隊,而服務員除了責怪發(fā)生抖動的計算機系統(tǒng)之外別無他法。內(nèi)存不足或許是導致服務器故障的主要原因之一。
外部存儲器與第三級存儲器
我們繼續(xù)沿存儲器層次結構向下分析。在連接到網(wǎng)絡之后,計算機就能訪問由其他計算機管理的存儲器。它們要么位于本地網(wǎng)絡,要么位于因特網(wǎng)(即云端)。但訪問這些數(shù)據(jù)所需的時間更長:讀取本地磁盤需要1 毫秒,而獲取網(wǎng)絡中的數(shù)據(jù)可能耗時數(shù)百毫秒。網(wǎng)絡包從一臺計算機傳輸?shù)搅硪慌_計算機大約需要10 毫秒,如果經(jīng)由因特網(wǎng)傳輸則需要200 毫秒到300 毫秒,與眨眼的時間相仿。
位于存儲器層次結構底部的是第三級存儲器,這種存儲設備并非總是在線與可用的。在盒式磁帶或CD 中存儲數(shù)百萬吉字節(jié)的數(shù)據(jù)成本較低,但訪問這類介質(zhì)中的數(shù)據(jù)時,需要將介質(zhì)插入某種讀取設備,這可能需要數(shù)分鐘甚至數(shù)天之久(不妨嘗試讓IT 部門在周五晚上備份磁帶中的數(shù)據(jù)……)。有鑒于此,第三級存儲器僅適合歸檔很少訪問的數(shù)據(jù)。
存儲技術的發(fā)展趨勢
一方面,很難顯著改進“快速”存儲器(位于存儲器層次結構頂端)所用的技術;另一方面,“慢速”存儲器的速度越來越快,價格也越來越低。幾十年來,硬盤存儲的成本一直在下降,這種趨勢似乎還將持續(xù)下去。
新技術也使磁盤的速度得以提高。人們正從旋轉(zhuǎn)磁盤轉(zhuǎn)向固態(tài)硬盤(SSD),它沒有動件,因而更快、更可靠且更省電。
采用SSD 技術的磁盤正變得越來越便宜且越來越快,但其價格仍然不菲。有鑒于此,一些制造商推出了同時采用SSD 與磁技術的混合磁盤。后者將訪問頻率較高的數(shù)據(jù)存儲在SSD 中,訪問頻率較低的數(shù)據(jù)存儲在速度較慢的磁盤中。當需要頻繁訪問原先不經(jīng)常訪問的數(shù)據(jù)時,則將其復制到混合驅(qū)動器中速度較快的SSD。這與CPU 利用內(nèi)部緩存提高RAM 訪問速度的技巧頗為類似。
小結
本文介紹了一些基本的計算機工作原理。任何可計算的事物都能采用簡單的指令來表示。為將復雜的計算命令轉(zhuǎn)換為CPU 可以執(zhí)行的簡單指令,需要使用一種稱為編譯器的程序。計算機之所以能進行復雜計算,僅僅是因為CPU 可以執(zhí)行大量基本操作。
計算機的處理器速度很快,但存儲器相對較慢。CPU 并非以隨機方式訪問存儲器,而是遵循空間局部性與時間局部性原理。因此,可以將訪問頻率較高的數(shù)據(jù)緩存在速度更快的存儲器中。這一原則在多個級別的緩存中得到了應用:從一級緩存直到第三級存儲器,不一而足。
本文討論的緩存原則可以應用于多種場景。確定應用程序頻繁使用的數(shù)據(jù),并設法提高這部分數(shù)據(jù)的訪問速度,是縮短計算機程序運行時間的最常用策略之一。
——本文選自《計算機科學精粹》
本文來源:圖靈教育
推薦閱讀: