寫在前面的話
正則表達式它的強大字符串匹配功能,導致目前在各種程序語言中,都非常流行!它被用來描述或者匹配一系列符合某個句法規則的字符串。很多剛剛使用正則表達式都是從聽說這個,然后在要使用時候去網上搜索。 很少人一開始就系統去學習正則表達式,從定義原理使用系統學習。因為,對應初學者覺得它太麻煩了,好多原字符??吹侥敲撮L一串字符,就很頭痛。因此,也懶得去學習。一般遇到問題,直接去網上搜索。如:“郵箱正則表達式,手機號正則表達式,url正則表達式…..” ,我們發現一個很有意思現象,“怎么郵箱正則表達式可以各種各樣,url正則表達式也不相同“,都出都在推薦,都說自己是正確的,到底那個是正確的呢?
從各異的正則表達式,我們可以得出2個結論。一、正則表達式很靈活,多種方法可以實現同一種結果(條條大路通羅馬),二、正則表達式匹配結果需要驗證的,復雜正則表達式很容易產生錯誤匹配。今天,我這里不說正則表達式靈活性,我們看看常見正則表達式錯誤使用,產生功能漏洞例子。希望,我們在使用時候多多注意。以下例子,來自我工作中審核代碼,經常出現例子,也歡迎朋友們補充!
定界符”^$”缺失bug
?php
///檢測用戶名,只能是字符加數字
$user="chengmo8";
if(!preg_match("strong>/[0-9a-zA-Z]+//strong>",$user))
{
exit("用戶名錯誤!");
}
這是很常見的,因為沒有定界符,正則表達式搜索,會從$user中,字符中從左向右搜索,指導找到滿足條件的字符,就會匹配到,并且返回true,程序將繼續執行。我們測試,用戶名輸入:chengmo8,chengmo8??!,#$chengm,中國cadadf,都可以匹配成功,看似要限制只能字符加數字用戶名。實際由于缺乏限定符正則表達式,變成了,只要字符串中包含字母加數字就可以注冊。而我們需要的是,從頭到尾字符串必須是字母加數字。正則表達式應該是:^[0-9a-zA-Z]+$ ,看似簡單,在做從頭到尾字符匹配時候,不要忘記了^$字符。一個匹配輸入字符開頭,一個匹配輸入字符結尾(默認換行符前)
這種經常做,手機號,郵箱,url,注冊用戶名,密碼等。都需要有限定符號!
方括號字符"[ ]”中字符使用Bug
在正則表達式中,常見正則表達式原字符(.*?等等)在方括號字符中將變成普通字符。 在方括號字符中,表示特殊字符,只有“^-\” 3個字符是特殊字符。其中,“^”字符,在左方括號第一個字符時候,是代表不在后面所有字符中字符!
如:[^0]不能是0字符。而如果是:[0^] ,就代表包含0^字符了。因為:^已經不是左括號最右邊一個字符了。 已經跟普通字一樣了?!?”字符代表是范圍字符,如:[0-9] 代表是匹配0到9直接字符?!盶”轉義字符,如果想匹配”-“字符,可以[0\-9],如果要匹配”\”,可以是:[0\\9],表示“09\” 3個字符了。說這么些,其實就是因為,很多朋友在使用方括號字符時候,經常會弄錯特殊字符。
?php
///檢測用戶名,只能是字符加數字
$code = "";
///匹配字符范圍包含.*?
preg_match("/[.*?]+/",$code);
///匹配字符范圍包含a到z 26個字符
preg_match("/[a-z]+/",$code);
///匹配字符范圍包含A到z 實際上,是從默認情況ascii表中,A字符到z字符中間,一共48字符
preg_match("/[A-z]+/",$code);
///匹配字符范圍包含A到z 是對應ascill碼,16進制
preg_match("/[x41-x7A]+/",$code);
///只想匹配字符串and
preg_match("/[and]/",$code);
///實際匹配,所有包含a,n,d 組成所有字符,跟順序無關
加紅是經常錯誤理解,只想匹配and,一旦加入到"[ ]"中字符,可以理解為所有字符組成字符 集合。任意在其中出現字符,就可以匹配,跟順序無關系!如果真需要匹配這類,按字符分組來,如”and|bnd” 將匹配and字符串,或者是bnd字符串?!眧”字符是,字符串或操作符。左右兩邊連續字符串會組合為一個整體匹配。
好了,今天就整理,常見正則表達式,2種常見錯誤。歡迎大家交流!