近期在玩大數據。有個朋友找過來,說他線上的tomcat會莫名其妙的退出,表示非??鄲?,請我幫看看。每次他發現退出了,都通過騰訊云的WEB控制臺登錄,啟動tomcat。
本著助人為樂(shao kao hao chi)的精神,我連上去開始分析。首先肯定是看tomcat的日志,看看有沒有記錄到相關信息,是什么途徑退出的。


從日志上看,tomcat收到了退出請求,并按照要求關閉容器。那么是否可以認為是有人執行了shutdown.sh呢?并不能。執行了shutdown腳本的關閉日志是這樣的。

與其相關的tomcat源碼截圖如下。截圖左側有行號。
tomcat啟動時,設置await,等待關閉指令進入。org\apache\catalina\startup\Bootstrap.java


catalinaDaemon的定義如下。

org\apache\catalina\startup\Catalina.java




具體實例化時,會將接口Server的實例指向StandardServer。類路徑如下。
org\apache\catalina\Server.java
org\apache\catalina\core\StandardServer.java
而StandServer中的輸出相關日志的源碼如下:

讀取的配置文件為org\apache\catalina\core\LocalStrings.properties

當tomcat收到正經的關閉指令時,會輸出此日志,說明是收到指令關閉容器。
正經的指令關閉容器,相關代碼如下。


那么,現在的證據說明,這個tomcat不是通過SHUTDOWN報文關閉的。而且,從下圖來看,也頗能說明這個SHUTDOWN指令不是這么容易發成功的。

那么現在可能性最大的辦法就是通過KILL指令來操作。執行bash腳本需要登錄機器,那么從wtmp、utmp查找一下這個時間點的登錄記錄呢?


下面是IPIP的結果。

換言之,23日早上tomcat異常退出的時候,有一個來自騰訊云的BGP機房的地址也巧合的斷開了會話。而我這個朋友的機器就放在騰訊云。有點奇怪是嗎?
繼續追查,連續追溯幾天的tomcat日志,比對utmp、wtmp結果,再比對IPIP結果,都是如此。來自騰訊云BGP機房的會話斷開,tomcat同一時間點退出。精確到秒級。連續多天出現很多次,說明tomcat退出和WEB會話退出是具備因果關系的。
經過詢問,朋友確認他是習慣于使用WEB控制臺的方式登錄服務器,啟動了tomcat以后就丟在一邊,開始調試接口了。那么有什么可能會導致這樣的因果關系出現?這就要說到Linux系統的一個歷史悠久的進程間通信的機制——信號量。
具體信號量是什么,請自行查詢相關資料了解學習。針對本次問題,可以簡單的理解為進程間通訊的一種機制。
進程A需要進程B做點事,而進程間的內存區域某種意義上說是互不可見的。這個時候就需要通過信號量來完成。進程A可以按照預先定義的信號量規范向進程B發出信號量,當進程B收到后,根據具體信號量的值決定處理邏輯。具體信號量清單,可以在命令行通過如下命令查詢。命令中均為字母,沒有數字1。

這其中最常見的就是9,SIGKILL。當進程收到此信號量時,會被KILL掉。此信號量由操作系統處理,應用不能處理。在vista之前的windows系統中,是有辦法滲透到內核中的。此時可以攔截類似WM_CLOSE之類的消息,讓某個程序無法關閉。到了win7、win10時代,已經不能使用此類技巧了。
此外,我們熟悉的CTRL + C操作,發出的是SIGINT。有些場景下,我們需要通知程序優雅的退出,此時可以發出SIGQUIT,也就是kill -3。
那么WEB控制臺會話斷開,會發出什么信號量呢?我們來試試就知道了。Java雖然說不能操作系統底層,但是sun.misc包有驚喜哦。代碼如下。


如圖所示,這段代碼會在收到信號量時輸出線程名稱,信號量名稱,并翻譯成具體的數字。隨后,在main函數中,我“注冊”了HUP、INT、ABRT、TERM四種信號量。注冊四種是因為不清楚具體會發什么出來,索性有可能的都搞起來。
編譯,打包。此處有一個問題需要注意,由于信號量屬于操作系統底層機制,每個不同操作系統所支持的信號量是不同的,JVM中通過private static native int findSignal(String paramString)提供支持。native方法涉及具體VM實現,不貼代碼了。不過很容易想到的是,windows和linux當然不同。所以此處就要在上位機編寫,下位機調試了。windows底下運行報錯可不要慌張哦。
接下來的事情就簡單了。把程序上傳服務器,通過WEB控制臺登錄服務器,將執行結果重定向到文本文件中,然后靜待控制臺超時。結果如下。


結果不用再分析了,WEB控制臺會在退出時發出SIGHUP,相當于kill -1。而tomcat在收到SIGHUP會怎么操作呢?小伙伴們可以試試看kill -1 pid,再看看日志,就明白了。
解決方案其實也簡單。SIGHUP是HANG UP的意思,可以用nohup xx.sh &來徹底屏蔽SIGHUP和SIGINT。另外,經過測試發現,通過單擊SecureCRT的tab頁右側的×也可以觸發信號量,而直接logout或者點菜單上的紅叉則并不會觸發。
感興趣的小伙伴可以把這個程序擴展一下,測測看。說不定你的異常退出問題也能迎刃而解呢。
此問題的解決離不開上海中通的劉建剛同學,特此致謝。
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對腳本之家的支持。