使用 systemd 作為問題定位工具
雖然 systemd 并非真正的故障定位工具,但其輸出中的信息為解決問題指明了方向。
沒有人會認為 systemd 是一個故障定位工具,但當我的 web 服務器遇到問題時,我對 systemd 和它的一些功能的不斷了解幫助我找到并規避了問題。
我遇到的問題是這樣,我的服務器 yorktown 為我的家庭辦公網絡提供名稱服務 、DHCP、NTP、HTTPD 和 SendMail 郵件服務,它在正常啟動時未能啟動 Apache HTTPD 守護程序。在我意識到它沒有運行之后,我不得不手動啟動它。這個問題已經持續了一段時間,我最近才開始嘗試去解決它。
你們中的一些人會說,systemd 本身就是這個問題的原因,根據我現在了解的情況,我同意你們的看法。然而,我在使用 SystemV 時也遇到了類似的問題。(在本系列文章的 第一篇 中,我探討了圍繞 systemd 作為舊有 SystemV 啟動程序和啟動腳本的替代品所產生的爭議。如果你有興趣了解更多關于 systemd 的信息,也可以閱讀 第二篇 和 第三篇 文章。)沒有完美的軟件,systemd 和 SystemV 也不例外,但 systemd 為解決問題提供的信息遠遠多于 SystemV。
確定問題所在
找到這個問題根源的第一步是確定 httpd 服務的狀態:
[root@yorktown ~]# systemctl status httpd● httpd.service - The Apache HTTP ServerLoaded: loaded (/usr/lib/systemd/system/httpd.service; enabled; vendor preset: disabled)Active: failed (Result: exit-code) since Thu 2020-04-16 11:54:37 EDT; 15min agoDocs: man:httpd.service(8)Process: 1101 ExecStart=/usr/sbin/httpd $OPTIONS -DFOREGROUND (code=exited, status=1/FAILURE)Main PID: 1101 (code=exited, status=1/FAILURE)Status: "Reading configuration..."CPU: 60msApr 16 11:54:35 yorktown.both.org systemd[1]: Starting The Apache HTTP Server...Apr 16 11:54:37 yorktown.both.org httpd[1101]: (99)Cannot assign requested address: AH00072: make_sock: could not bind to address 192.168.0.52:80Apr 16 11:54:37 yorktown.both.org httpd[1101]: no listening sockets available, shutting downApr 16 11:54:37 yorktown.both.org httpd[1101]: AH00015: Unable to open logsApr 16 11:54:37 yorktown.both.org systemd[1]: httpd.service: Main process exited, code=exited, status=1/FAILUREApr 16 11:54:37 yorktown.both.org systemd[1]: httpd.service: Failed with result 'exit-code'.Apr 16 11:54:37 yorktown.both.org systemd[1]: Failed to start The Apache HTTP Server.[root@yorktown ~]#
這種狀態信息是 systemd 的功能之一,我覺得比 SystemV 提供的任何功能都要有用。這里的大量有用信息使我很容易得出邏輯性的結論,讓我找到正確的方向。我從舊的 chkconfig 命令中得到的是服務是否在運行,以及如果它在運行的話,進程 ID(PID)是多少。這可沒多大幫助。
該狀態報告中的關鍵條目顯示,HTTPD 不能與 IP 地址綁定,這意味著它不能接受傳入的請求。這表明網絡啟動速度不夠快,因為 IP 地址還沒有設置好,所以 HTTPD 服務還沒有準備好與 IP 地址綁定。這是不應該發生的,所以我查看了我的網絡服務的 systemd 啟動配置文件;在正確的 after 和 requires 語句下,所有這些似乎都沒問題。下面是我服務器上的 /lib/systemd/system/httpd.service 文件:
# Modifying this file in-place is not recommended, because changes# will be overwritten during package upgrades. To customize the# behaviour, run "systemctl edit httpd" to create an override unit.# For example, to pass additional options (such as -D definitions) to# the httpd binary at startup, create an override unit (as is done by# systemctl edit) and enter the following:# [Service]# Environment=OPTIONS=-DMY_DEFINE[Unit]Description=The Apache HTTP ServerWants=httpd-init.serviceAfter=network.target remote-fs.target nss-lookup.target httpd-init.serviceDocumentation=man:httpd.service(8)[Service]Type=notifyEnvironment=LANG=CExecStart=/usr/sbin/httpd $OPTIONS -DFOREGROUNDExecReload=/usr/sbin/httpd $OPTIONS -k graceful# Send SIGWINCH for graceful stopKillSignal=SIGWINCHKillMode=mixedPrivateTmp=true[Install]WantedBy=multi-user.target
httpd.service 單元文件明確規定,它應該在 network.target 和 httpd-init.service(以及其他)之后加載。我試著用 systemctl list-units 命令找到所有這些服務,并在結果數據流中搜索它們。所有這些服務都存在,應該可以確保在設置網絡 IP 地址之前,httpd 服務沒有加載。
第一個解決方案
在互聯網上搜索了一下,證實其他人在 httpd 和其他服務也遇到了類似的問題。這似乎是由于其中一個所需的服務向 systemd 表示它已經完成了啟動,但實際上它卻啟動了一個尚未完成的子進程。通過更多搜索,我想到了一個規避方法。
我搞不清楚為什么花了這么久才把 IP 地址分配給網卡。所以我想,如果我可以將 HTTPD 服務的啟動推遲合理的一段時間,那么 IP 地址就會在那個時候分配。
幸運的是,上面的 /lib/systemd/system/httpd.service 文件提供了一些方向。雖然它說不要修改它,但是它還是指出了如何操作:使用 systemctl edit httpd 命令,它會自動創建一個新文件(/etc/systemd/system/httpd.service.d/override.conf)并打開 GNU Nano 編輯器(如果你對 Nano 不熟悉,一定要看一下 Nano 界面底部的提示)。
在新文件中加入以下代碼并保存:
[root@yorktown ~]# cd /etc/systemd/system/httpd.service.d/[root@yorktown httpd.service.d]# lltotal 4-rw-r--r-- 1 root root 243 Apr 16 11:43 override.conf[root@yorktown httpd.service.d]# cat override.conf# Trying to delay the startup of httpd so that the network is# fully up and running so that httpd can bind to the correct# IP address## By David Both, 2020-04-16[Service]ExecStartPre=/bin/sleep 30
這個覆蓋文件的 [Service] 段有一行代碼,將 HTTPD 服務的啟動時間推遲了 30 秒。下面的狀態命令顯示了等待時間里的服務狀態:
[root@yorktown ~]# systemctl status httpd● httpd.service - The Apache HTTP ServerLoaded: loaded (/usr/lib/systemd/system/httpd.service; enabled; vendor preset: disabled)Drop-In: /etc/systemd/system/httpd.service.d└─override.conf/usr/lib/systemd/system/httpd.service.d└─php-fpm.confActive: activating (start-pre) since Thu 2020-04-16 12:14:29 EDT; 28s agoDocs: man:httpd.service(8)Cntrl PID: 1102 (sleep)Tasks: 1 (limit: 38363)Memory: 260.0KCPU: 2msCGroup: /system.slice/httpd.service└─1102 /bin/sleep 30Apr 16 12:14:29 yorktown.both.org systemd[1]: Starting The Apache HTTP Server...Apr 16 12:15:01 yorktown.both.org systemd[1]: Started The Apache HTTP Server.[root@yorktown ~]#
這個命令顯示了 30 秒延遲過后 HTTPD 服務的狀態。該服務已經啟動并正常運行。
[root@yorktown ~]# systemctl status httpd● httpd.service - The Apache HTTP ServerLoaded: loaded (/usr/lib/systemd/system/httpd.service; enabled; vendor preset: disabled)Drop-In: /etc/systemd/system/httpd.service.d└─override.conf/usr/lib/systemd/system/httpd.service.d└─php-fpm.confActive: active (running) since Thu 2020-04-16 12:15:01 EDT; 1min 18s agoDocs: man:httpd.service(8)Process: 1102 ExecStartPre=/bin/sleep 30 (code=exited, status=0/SUCCESS)Main PID: 1567 (httpd)Status: "Total requests: 0; Idle/Busy workers 100/0;Requests/sec: 0; Bytes served/sec: 0 B/sec"Tasks: 213 (limit: 38363)Memory: 21.8MCPU: 82msCGroup: /system.slice/httpd.service├─1567 /usr/sbin/httpd -DFOREGROUND├─1569 /usr/sbin/httpd -DFOREGROUND├─1570 /usr/sbin/httpd -DFOREGROUND├─1571 /usr/sbin/httpd -DFOREGROUND└─1572 /usr/sbin/httpd -DFOREGROUNDApr 16 12:14:29 yorktown.both.org systemd[1]: Starting The Apache HTTP Server...Apr 16 12:15:01 yorktown.both.org systemd[1]: Started The Apache HTTP Server.
我本來可以實驗下更短的延遲時間是否也能奏效,但是我的系統并不用那么嚴格,所以我覺得不這樣做。目前系統的工作狀態很可靠,所以我很高興。
因為我收集了所有這些信息,我將其作為 Bug1825554 報告給紅帽 Bugzilla。我相信報告 Bug 比抱怨 Bug 更有有用。
更好的解決方案
把這個問題作為 bug 上報幾天后,我收到了回復,表示 systemd 只是一個管理工具,如果 httpd 需要在滿足某些要求之后被拉起,需要在單元文件中表達出來。這個回復指引我去查閱 httpd.service 的手冊頁。我希望我能早點發現這個,因為它是比我自己想出的更優秀的解決方案。這種方案明確的針對了前置目標單元,而不僅僅是隨機延遲。
在啟動時開啟服務
httpd.service和httpd.socket單元默認是 禁用 的。為了在啟動階段開啟 httpd 服務,執行:systemctl enable httpd.service。在默認配置中,httpd 守護進程會接受任何配置好的 IPv4 或 IPv6 地址的 80 口上的連接(如果安裝了 mod_ssl,就會接受 443 端口上的 TLS 連接)。如果 httpd 被配置成依賴任一特定的 IP 地址(比如使用
Listen指令),該地址可能只在啟動階段可用,又或者 httpd 依賴其他服務(比如數據庫守護進程),那么必須配置該服務,以確保正確的啟動順序。例如,為了確保 httpd 在所有配置的網絡接口配置完成之后再運行,可以創建一個帶有以下代碼段的 drop-in 文件(如上述):
[Unit]After=network-online.targetWants=network-online.target
我仍然覺得這是個 bug,因為在 httpd.conf 配置文件中使用 Listen 指令是很常見的,至少在我的經驗中。我一直在使用 Listen 指令,即使在只有一個 IP 地址的主機上,在多個網卡和 IP 地址的機器上這顯然也是有必要的。在 /usr/lib/systemd/system/httpd.service 默認配置文件中加入上述幾行,對不使用 Listen 指令的不會造成問題,對使用 Listen 指令的則會規避這個問題。
同時,我將使用建議的方法。
下一步
本文描述了一個我在服務器上啟動 Apache HTTPD 服務時遇到的一個問題。它指引你了解我在解決這個問題上的思路,并說明了我是如何使用 systemd 來協助解決問題。我也介紹了我用 systemd 實現的規避方法,以及我按照我的 bug 報告得到的更好的解決方案。
如我在開頭處提到的那樣,這有很大可能是一個 systemd 的問題,特別是 httpd 啟動的配置問題。盡管如此,systemd 還是提供了工具讓我找到了問題的可能來源,并制定和實現了規避方案。兩種方案都沒有真正令我滿意地解決問題。目前,這個問題根源依舊存在,必須要解決。如果只是在 /usr/lib/systemd/system/httpd.service 文件中添加推薦的代碼,那對我來說是可行的。
在這個過程中我發現了一件事,我需要了解更多關于定義服務啟動順序的知識。我會在下一篇文章中探索這個領域,即本系列的第五篇。
資源
網上有大量的關于 systemd 的參考資料,但是大部分都有點簡略、晦澀甚至有誤導性。除了本文中提到的資料,下列的網頁提供了跟多可靠且詳細的 systemd 入門信息。
- Fedora 項目有一篇切實好用的 systemd 入門,它囊括了幾乎所有你需要知道的關于如何使用 systemd 配置、管理和維護 Fedora 計算機的信息。
- Fedora 項目也有一個不錯的 備忘錄,交叉引用了過去 SystemV 命令和 systemd 命令做對比。
- 關于 systemd 的技術細節和創建這個項目的原因,請查看 Freedesktop.org 上的 systemd 描述。
- Linux.com 的“更多 systemd 的樂趣”欄目提供了更多高級的 systemd 信息和技巧。




























