今天,數(shù)據(jù)庫的操作越來越成為整個應(yīng)用的性能瓶頸了,這點(diǎn)對于Web應(yīng)用尤其明顯。關(guān)于數(shù)據(jù)庫的性能,這并不只是DBA才需要擔(dān)心的事,而這更是我 們程序員需要去關(guān)注的事情。當(dāng)我們?nèi)ピO(shè)計數(shù)據(jù)庫表結(jié)構(gòu),對操作數(shù)據(jù)庫時(尤其是查表時的SQL語句),我們都需要注意數(shù)據(jù)操作的性能。這里,我們不會講過 多的SQL語句的優(yōu)化,而只是針對MySQL這一Web應(yīng)用最多的數(shù)據(jù)庫。希望下面的這些優(yōu)化技巧對你有用。
1. 為查詢緩存優(yōu)化你的查詢
大多數(shù)的MySQL服務(wù)器都開啟了查詢緩存。這是提高性最有效的方法之一,而且這是被MySQL的數(shù)據(jù)庫引擎處理的。當(dāng)有很多相同的查詢被執(zhí)行了多次的時候,這些查詢結(jié)果會被放到一個緩存中,這樣,后續(xù)的相同的查詢就不用操作表而直接訪問緩存結(jié)果了。
這里最主要的問題是,對于程序員來說,這個事情是很容易被忽略的。因?yàn)?,我們某些查詢語句會讓MySQL不使用緩存。請看下面的示例:
// 查詢緩存不開啟
$r = mysql_query("SELECT username FROM user WHERE signup_date >= CURDATE()");
// 開啟查詢緩存
$today = date("Y-m-d");
$r = mysql_query("SELECT username FROM user WHERE signup_date >= '$today'");
上面兩條SQL語句的差別就是 CURDATE() ,MySQL的查詢緩存對這個函數(shù)不起作用。所以,像 NOW() 和 RAND() 或是其它的諸如此類的SQL函數(shù)都不會開啟查詢緩存,因?yàn)檫@些函數(shù)的返回是會不定的易變的。所以,你所需要的就是用一個變量來代替MySQL的函數(shù),從而 開啟緩存。
2. EXPLAIN 你的 SELECT 查詢
使用 EXPLAIN 關(guān)鍵字可以讓你知道MySQL是如何處理你的SQL語句的。這可以幫你分析你的查詢語句或是表結(jié)構(gòu)的性能瓶頸。
EXPLAIN 的查詢結(jié)果還會告訴你你的索引主鍵被如何利用的,你的數(shù)據(jù)表是如何被搜索和排序的……等等,等等。
挑一個你的SELECT語句(推薦挑選那個最復(fù)雜的,有多表聯(lián)接的),把關(guān)鍵字EXPLAIN加到前面。你可以使用phpmyadmin來做這個事。然后,你會看到一張表格。下面的這個示例中,我們忘記加上了group_id索引,并且有表聯(lián)接:
當(dāng)我們?yōu)?group_id 字段加上索引后:
我們可以看到,前一個結(jié)果顯示搜索了 7883 行,而后一個只是搜索了兩個表的 9 和 16 行。查看rows列可以讓我們找到潛在的性能問題。
3. 當(dāng)只要一行數(shù)據(jù)時使用 LIMIT 1
當(dāng)你查詢表的有些時候,你已經(jīng)知道結(jié)果只會有一條結(jié)果,但因?yàn)槟憧赡苄枰etch游標(biāo),或是你也許會去檢查返回的記錄數(shù)。
在這種情況下,加上 LIMIT 1 可以增加性能。這樣一樣,MySQL數(shù)據(jù)庫引擎會在找到一條數(shù)據(jù)后停止搜索,而不是繼續(xù)往后查少下一條符合記錄的數(shù)據(jù)。
下面的示例,只是為了找一下是否有“中國”的用戶,很明顯,后面的會比前面的更有效率。(請注意,第一條中是Select *,第二條是Select 1)
// 沒有效率的:
$r = mysql_query("SELECT * FROM user WHERE country = 'China'");
if (mysql_num_rows($r) > 0) {
// ...
}
// 有效率的:
$r = mysql_query("SELECT 1 FROM user WHERE country = 'China' LIMIT 1");
if (mysql_num_rows($r) > 0) {
// ...
}
4. 為搜索字段建索引
索引并不一定就是給主鍵或是唯一的字段。如果在你的表中,有某個字段你總要會經(jīng)常用來做搜索,那么,請為其建立索引吧。
從上圖你可以看到那個搜索字串 “l(fā)ast_name LIKE ‘a(chǎn)%’”,一個是建了索引,一個是沒有索引,性能差了4倍左右。
另外,你應(yīng)該也需要知道什么樣的搜索是不能使用正常的索引的。例如,當(dāng)你需要在一篇大的文章中搜索一個詞時,如: “WHERE post_content LIKE ‘%apple%’”,索引可能是沒有意義的。你可能需要使用MySQL全文索引 或是自己做一個索引(比如說:搜索關(guān)鍵詞或是Tag什么的)
5. 在Join表的時候使用相當(dāng)類型的例,并將其索引
如果你的應(yīng)用程序有很多 JOIN 查詢,你應(yīng)該確認(rèn)兩個表中Join的字段是被建過索引的。這樣,MySQL內(nèi)部會啟動為你優(yōu)化Join的SQL語句的機(jī)制。
而且,這些被用來Join的字段,應(yīng)該是相同的類型的。例如:如果你要把 DECIMAL 字段和一個 INT 字段Join在一起,MySQL就無法使用它們的索引。對于那些STRING類型,還需要有相同的字符集才行。(兩個表的字符集有可能不一樣)
// 在state中查找company
$r = mysql_query("SELECT company_name FROM users
LEFT JOIN companies ON (users.state = companies.state)
WHERE users.id = $user_id");
// 兩個 state 字段應(yīng)該是被建過索引的,而且應(yīng)該是相當(dāng)?shù)念愋?,相同的字符集?
6. 千萬不要 ORDER BY RAND()
想打亂返回的數(shù)據(jù)行?隨機(jī)挑一個數(shù)據(jù)?真不知道誰發(fā)明了這種用法,但很多新手很喜歡這樣用。但你確不了解這樣做有多么可怕的性能問題。
如果你真的想把返回的數(shù)據(jù)行打亂了,你有N種方法可以達(dá)到這個目的。這樣使用只讓你的數(shù)據(jù)庫的性能呈指數(shù)級的下降。這里的問題是:MySQL會不得 不去執(zhí)行RAND()函數(shù)(很耗CPU時間),而且這是為了每一行記錄去記行,然后再對其排序。就算是你用了Limit 1也無濟(jì)于事(因?yàn)橐判?
下面的示例是隨機(jī)挑一條記錄
// 千萬不要這樣做:
$r = mysql_query("SELECT username FROM user ORDER BY RAND() LIMIT 1");
// 這要會更好:
$r = mysql_query("SELECT count(*) FROM user");
$d = mysql_fetch_row($r);
$rand = mt_rand(0,$d[0] - 1);
$r = mysql_query("SELECT username FROM user LIMIT $rand, 1");
7. 避免 SELECT *
從數(shù)據(jù)庫里讀出越多的數(shù)據(jù),那么查詢就會變得越慢。并且,如果你的數(shù)據(jù)庫服務(wù)器和WEB服務(wù)器是兩臺獨(dú)立的服務(wù)器的話,這還會增加網(wǎng)絡(luò)傳輸?shù)呢?fù)載。
所以,你應(yīng)該養(yǎng)成一個需要什么就取什么的好的習(xí)慣。
// 不推薦
$r = mysql_query("SELECT * FROM user WHERE user_id = 1");
$d = mysql_fetch_assoc($r);
echo "Welcome {$d['username']}";
// 推薦
$r = mysql_query("SELECT username FROM user WHERE user_id = 1");
$d = mysql_fetch_assoc($r);
echo "Welcome {$d['username']}";
8. 永遠(yuǎn)為每張表設(shè)置一個ID
我們應(yīng)該為數(shù)據(jù)庫里的每張表都設(shè)置一個ID做為其主鍵,而且最好的是一個INT型的(推薦使用UNSIGNED),并設(shè)置上自動增加的AUTO_INCREMENT標(biāo)志。
就算是你 users 表有一個主鍵叫 “email”的字段,你也別讓它成為主鍵。使用 VARCHAR 類型來當(dāng)主鍵會使用得性能下降。另外,在你的程序中,你應(yīng)該使用表的ID來構(gòu)造你的數(shù)據(jù)結(jié)構(gòu)。
而且,在MySQL數(shù)據(jù)引擎下,還有一些操作需要使用主鍵,在這些情況下,主鍵的性能和設(shè)置變得非常重要,比如,集群,分區(qū)……
在這里,只有一個情況是例外,那就是“關(guān)聯(lián)表”的“外鍵”,也就是說,這個表的主鍵,通過若干個別的表的主鍵構(gòu)成。我們把這個情況叫做“外鍵”。比 如:有一個“學(xué)生表”有學(xué)生的ID,有一個“課程表”有課程ID,那么,“成績表”就是“關(guān)聯(lián)表”了,其關(guān)聯(lián)了學(xué)生表和課程表,在成績表中,學(xué)生ID和課 程ID叫“外鍵”其共同組成主鍵。
9. 使用 ENUM 而不是 VARCHAR
ENUM 類型是非??旌途o湊的。在實(shí)際上,其保存的是 TINYINT,但其外表上顯示為字符串。這樣一來,用這個字段來做一些選項(xiàng)列表變得相當(dāng)?shù)耐昝馈?/P>
如果你有一個字段,比如“性別”,“國家”,“民族”,“狀態(tài)”或“部門”,你知道這些字段的取值是有限而且固定的,那么,你應(yīng)該使用 ENUM 而不是 VARCHAR。
MySQL也有一個“建議”(見第十條)告訴你怎么去重新組織你的表結(jié)構(gòu)。當(dāng)你有一個 VARCHAR 字段時,這個建議會告訴你把其改成 ENUM 類型。使用 PROCEDURE ANALYSE() 你可以得到相關(guān)的建議。
10. 從 PROCEDURE ANALYSE() 取得建議
PROCEDURE ANALYSE() 會讓 MySQL 幫你去分析你的字段和其實(shí)際的數(shù)據(jù),并會給你一些有用的建議。只有表中有實(shí)際的數(shù)據(jù),這些建議才會變得有用,因?yàn)橐鲆恍┐蟮臎Q定是需要有數(shù)據(jù)作為基礎(chǔ)的。
例如,如果你創(chuàng)建了一個 INT 字段作為你的主鍵,然而并沒有太多的數(shù)據(jù),那么,PROCEDURE ANALYSE()會建議你把這個字段的類型改成 MEDIUMINT ?;蚴悄闶褂昧艘粋€ VARCHAR 字段,因?yàn)閿?shù)據(jù)不多,你可能會得到一個讓你把它改成 ENUM 的建議。這些建議,都是可能因?yàn)閿?shù)據(jù)不夠多,所以決策做得就不夠準(zhǔn)。
在phpmyadmin里,你可以在查看表時,點(diǎn)擊 “Propose table structure” 來查看這些建議
一定要注意,這些只是建議,只有當(dāng)你的表里的數(shù)據(jù)越來越多時,這些建議才會變得準(zhǔn)確。一定要記住,你才是最終做決定的人。
11. 盡可能的使用 NOT NULL
除非你有一個很特別的原因去使用 NULL 值,你應(yīng)該總是讓你的字段保持 NOT NULL。這看起來好像有點(diǎn)爭議,請往下看。
首先,問問你自己“Empty”和“NULL”有多大的區(qū)別(如果是INT,那就是0和NULL)?如果你覺得它們之間沒有什么區(qū)別,那么你就不要使用NULL。(你知道嗎?在 Oracle 里,NULL 和 Empty 的字符串是一樣的!)
不要以為 NULL 不需要空間,其需要額外的空間,并且,在你進(jìn)行比較的時候,你的程序會更復(fù)雜。 當(dāng)然,這里并不是說你就不能使用NULL了,現(xiàn)實(shí)情況是很復(fù)雜的,依然會有些情況下,你需要使用NULL值。
下面摘自MySQL自己的文檔:
“NULL columns require additional space in the row to record whether their values are NULL. For MyISAM tables, each NULL column takes one bit extra, rounded up to the nearest byte.”
12. Prepared Statements
Prepared Statements很像存儲過程,是一種運(yùn)行在后臺的SQL語句集合,我們可以從使用 prepared statements 獲得很多好處,無論是性能問題還是安全問題。
Prepared Statements 可以檢查一些你綁定好的變量,這樣可以保護(hù)你的程序不會受到“SQL注入式”攻擊。當(dāng)然,你也可以手動地檢查你的這些變量,然而,手動的檢查容易出問題, 而且很經(jīng)常會被程序員忘了。當(dāng)我們使用一些framework或是ORM的時候,這樣的問題會好一些。
在性能方面,當(dāng)一個相同的查詢被使用多次的時候,這會為你帶來可觀的性能優(yōu)勢。你可以給這些Prepared Statements定義一些參數(shù),而MySQL只會解析一次。
雖然最新版本的MySQL在傳輸Prepared Statements是使用二進(jìn)制形勢,所以這會使得網(wǎng)絡(luò)傳輸非常有效率。
當(dāng)然,也有一些情況下,我們需要避免使用Prepared Statements,因?yàn)槠洳恢С植樵兙彺?。但?jù)說版本5.1后支持了。
在PHP中要使用prepared statements,你可以查看其使用手冊:mysqli 擴(kuò)展 或是使用數(shù)據(jù)庫抽象層,如: PDO.
// 創(chuàng)建 prepared statement
if ($stmt = $mysqli->prepare("SELECT username FROM user WHERE state=?")) {
// 綁定參數(shù)
$stmt->bind_param("s", $state);
// 執(zhí)行
$stmt->execute();
// 綁定結(jié)果
$stmt->bind_result($username);
// 移動游標(biāo)
$stmt->fetch();
printf("%s is from %s\n", $username, $state);
$stmt->close();
}
13. 無緩沖的查詢
正常的情況下,當(dāng)你在當(dāng)你在你的腳本中執(zhí)行一個SQL語句的時候,你的程序會停在那里直到?jīng)]這個SQL語句返回,然后你的程序再往下繼續(xù)執(zhí)行。你可以使用無緩沖查詢來改變這個行為。
關(guān)于這個事情,在PHP的文檔中有一個非常不錯的說明: mysql_unbuffered_query() 函數(shù):
“mysql_unbuffered_query() sends the SQL query query to MySQL without automatically fetching and buffering the result rows as mysql_query() does. This saves a considerable amount of memory with SQL queries that produce large result sets, and you can start working on the result set immediately after the first row has been retrieved as you don’t have to wait until the complete SQL query has been performed.”
上面那句話翻譯過來是說,mysql_unbuffered_query() 發(fā)送一個SQL語句到MySQL而并不像mysql_query()一樣去自動fethch和緩存結(jié)果。這會相當(dāng)節(jié)約很多可觀的內(nèi)存,尤其是那些會產(chǎn)生大 量結(jié)果的查詢語句,并且,你不需要等到所有的結(jié)果都返回,只需要第一行數(shù)據(jù)返回的時候,你就可以開始馬上開始工作于查詢結(jié)果了。
然而,這會有一些限制。因?yàn)槟阋窗阉行卸甲x走,或是你要在進(jìn)行下一次的查詢前調(diào)用 mysql_free_result() 清除結(jié)果。而且, mysql_num_rows() 或 mysql_data_seek() 將無法使用。所以,是否使用無緩沖的查詢你需要仔細(xì)考慮。
14. 把IP地址存成 UNSIGNED INT
很多程序員都會創(chuàng)建一個 VARCHAR(15) 字段來存放字符串形式的IP而不是整形的IP。如果你用整形來存放,只需要4個字節(jié),并且你可以有定長的字段。而且,這會為你帶來查詢上的優(yōu)勢,尤其是當(dāng) 你需要使用這樣的WHERE條件:IP between ip1 and ip2。
我們必需要使用UNSIGNED INT,因?yàn)?IP地址會使用整個32位的無符號整形。
而你的查詢,你可以使用 INET_ATON() 來把一個字符串IP轉(zhuǎn)成一個整形,并使用 INET_NTOA() 把一個整形轉(zhuǎn)成一個字符串IP。在PHP中,也有這樣的函數(shù) ip2long() 和 long2ip()。
$r = "UPDATE users SET ip = INET_ATON('{$_SERVER['REMOTE_ADDR']}') WHERE user_id = $user_id";
15. 固定長度的表會更快
如果表中的所有字段都是“固定長度”的,整個表會被認(rèn)為是 “static” 或 “fixed-length”。 例如,表中沒有如下類型的字段: VARCHAR,TEXT,BLOB。只要你包括了其中一個這些字段,那么這個表就不是“固定長度靜態(tài)表”了,這樣,MySQL 引擎會用另一種方法來處理。
固定長度的表會提高性能,因?yàn)镸ySQL搜尋得會更快一些,因?yàn)檫@些固定的長度是很容易計算下一個數(shù)據(jù)的偏移量的,所以讀取的自然也會很快。而如果字段不是定長的,那么,每一次要找下一條的話,需要程序找到主鍵。
并且,固定長度的表也更容易被緩存和重建。不過,唯一的副作用是,固定長度的字段會浪費(fèi)一些空間,因?yàn)槎ㄩL的字段無論你用不用,他都是要分配那么多的空間。
使用“垂直分割”技術(shù)(見下一條),你可以分割你的表成為兩個一個是定長的,一個則是不定長的。
16. 垂直分割
“垂直分割”是一種把數(shù)據(jù)庫中的表按列變成幾張表的方法,這樣可以降低表的復(fù)雜度和字段的數(shù)目,從而達(dá)到優(yōu)化的目的。(以前,在銀行做過項(xiàng)目,見過一張表有100多個字段,很恐怖)
示例一:在Users表中有一個字段是家庭地址,這個字段是可選字段,相比起,而且你在數(shù)據(jù)庫操作的時候除了個 人信息外,你并不需要經(jīng)常讀取或是改寫這個字段。那么,為什么不把他放到另外一張表中呢? 這樣會讓你的表有更好的性能,大家想想是不是,大量的時候,我對于用戶表來說,只有用戶ID,用戶名,口令,用戶角色等會被經(jīng)常使用。小一點(diǎn)的表總是會有 好的性能。
示例二: 你有一個叫 “l(fā)ast_login” 的字段,它會在每次用戶登錄時被更新。但是,每次更新時會導(dǎo)致該表的查詢緩存被清空。所以,你可以把這個字段放到另一個表中,這樣就不會影響你對用戶 ID,用戶名,用戶角色的不停地讀取了,因?yàn)椴樵兙彺鏁湍阍黾雍芏嘈阅堋?/P>
另外,你需要注意的是,這些被分出去的字段所形成的表,你不會經(jīng)常性地去Join他們,不然的話,這樣的性能會比不分割時還要差,而且,會是極數(shù)級的下降。
17. 拆分大的 DELETE 或 INSERT 語句
如果你需要在一個在線的網(wǎng)站上去執(zhí)行一個大的 DELETE 或 INSERT 查詢,你需要非常小心,要避免你的操作讓你的整個網(wǎng)站停止相應(yīng)。因?yàn)檫@兩個操作是會鎖表的,表一鎖住了,別的操作都進(jìn)不來了。
Apache 會有很多的子進(jìn)程或線程。所以,其工作起來相當(dāng)有效率,而我們的服務(wù)器也不希望有太多的子進(jìn)程,線程和數(shù)據(jù)庫鏈接,這是極大的占服務(wù)器資源的事情,尤其是內(nèi)存。
如果你把你的表鎖上一段時間,比如30秒鐘,那么對于一個有很高訪問量的站點(diǎn)來說,這30秒所積累的訪問進(jìn)程/線程,數(shù)據(jù)庫鏈接,打開的文件數(shù),可能不僅僅會讓你泊WEB服務(wù)Crash,還可能會讓你的整臺服務(wù)器馬上掛了。
所以,如果你有一個大的處理,你定你一定把其拆分,使用 LIMIT 條件是一個好的方法。下面是一個示例:
while (1) {
//每次只做1000條
mysql_query("DELETE FROM logs WHERE log_date <= '2009-11-01' LIMIT 1000");
if (mysql_affected_rows() == 0) {
// 沒得可刪了,退出!
break;
}
// 每次都要休息一會兒
usleep(50000);
}
18. 越小的列會越快
對于大多數(shù)的數(shù)據(jù)庫引擎來說,硬盤操作可能是最重大的瓶頸。所以,把你的數(shù)據(jù)變得緊湊會對這種情況非常有幫助,因?yàn)檫@減少了對硬盤的訪問。
參看 MySQL 的文檔 Storage Requirements 查看所有的數(shù)據(jù)類型。
如果一個表只會有幾列罷了(比如說字典表,配置表),那么,我們就沒有理由使用 INT 來做主鍵,使用 MEDIUMINT, SMALLINT 或是更小的 TINYINT 會更經(jīng)濟(jì)一些。如果你不需要記錄時間,使用 DATE 要比 DATETIME 好得多。
當(dāng)然,你也需要留夠足夠的擴(kuò)展空間,不然,你日后來干這個事,你會死的很難看,參看Slashdot的例子(2009年11月06日),一個簡單的ALTER TABLE語句花了3個多小時,因?yàn)槔锩嬗幸磺Я偃f條數(shù)據(jù)。
19. 選擇正確的存儲引擎
在 MySQL 中有兩個存儲引擎 MyISAM 和 InnoDB,每個引擎都有利有弊??釟ひ郧拔恼隆禡ySQL: InnoDB 還是 MyISAM?》討論和這個事情。
MyISAM 適合于一些需要大量查詢的應(yīng)用,但其對于有大量寫操作并不是很好。甚至你只是需要update一個字段,整個表都會被鎖起來,而別的進(jìn)程,就算是讀進(jìn)程都 無法操作直到讀操作完成。另外,MyISAM 對于 SELECT COUNT(*) 這類的計算是超快無比的。
InnoDB 的趨勢會是一個非常復(fù)雜的存儲引擎,對于一些小的應(yīng)用,它會比 MyISAM 還慢。他是它支持“行鎖” ,于是在寫操作比較多的時候,會更優(yōu)秀。并且,他還支持更多的高級應(yīng)用,比如:事務(wù)。
下面是MySQL的手冊
target=”_blank”MyISAM Storage Engine
InnoDB Storage Engine
20. 使用一個對象關(guān)系映射器(Object Relational Mapper)
使用 ORM (Object Relational Mapper),你能夠獲得可靠的性能增漲。一個ORM可以做的所有事情,也能被手動的編寫出來。但是,這需要一個高級專家。
ORM 的最重要的是“Lazy Loading”,也就是說,只有在需要的去取值的時候才會去真正的去做。但你也需要小心這種機(jī)制的副作用,因?yàn)檫@很有可能會因?yàn)橐?chuàng)建很多很多小的查詢反而會降低性能。
ORM 還可以把你的SQL語句打包成一個事務(wù),這會比單獨(dú)執(zhí)行他們快得多得多。
目前,個人最喜歡的PHP的ORM是:Doctrine。
21. 小心“永久鏈接”
“永久鏈接”的目的是用來減少重新創(chuàng)建MySQL鏈接的次數(shù)。當(dāng)一個鏈接被創(chuàng)建了,它會永遠(yuǎn)處在連接的狀態(tài),就算是數(shù)據(jù)庫操作已經(jīng)結(jié)束了。而且,自 從我們的Apache開始重用它的子進(jìn)程后——也就是說,下一次的HTTP請求會重用Apache的子進(jìn)程,并重用相同的 MySQL 鏈接。
PHP手冊:mysql_pconnect()
在理論上來說,這聽起來非常的不錯。但是從個人經(jīng)驗(yàn)(也是大多數(shù)人的)上來說,這個功能制造出來的麻煩事更多。因?yàn)?,你只有有限的鏈接?shù),內(nèi)存問題,文件句柄數(shù),等等。
而且,Apache 運(yùn)行在極端并行的環(huán)境中,會創(chuàng)建很多很多的了進(jìn)程。這就是為什么這種“永久鏈接”的機(jī)制工作地不好的原因。在你決定要使用“永久鏈接”之前,你需要好好地考慮一下你的整個系統(tǒng)的架構(gòu)。
更多信息請查看IT技術(shù)專欄