使用 Python 解析配置文件
第一步是選擇配置文件的格式:INI、JSON、YAML 或 TOML。
有時,程序需要足夠的參數,將它們全部作為命令行參數或環境變量既不讓人愉快也不可行。 在這些情況下,你將需要使用配置文件。
有幾種流行的配置文件格式。其中包括古老的(雖然有時定義不明確)INI 格式,雖然流行但有時難以手寫的 JSON 格式,使用廣泛但有時在細節方面令人意外的 YAML 格式,以及很多人還沒有聽說過的最新出現的 TOML。
你的首要任務是選擇一種格式,然后記錄該選擇。解決了這個簡單的部分之后就是時候解析配置了。
有時,在配置中擁有一個與“抽象“數據相對應的類是一個不錯的想法。因為這段代碼不會對配置做任何事情,所以這是展示解析邏輯最簡單的方式。
想象一下文件處理器的配置:它包括一個輸入目錄、一個輸出目錄和要提取的文件。
配置類的抽象定義可能類似于:
from __future__ import annotations
import attr@attr.frozenclass Configuration:@attr.frozenclass Files:input_dir: stroutput_dir: strfiles: Files@attr.frozenclass Parameters:patterns: List[str]parameters: Parameters
為了使特定于格式的代碼更簡單,你還需要編寫一個函數來從字典中解析此類。請注意,這假設配置將使用破折號,而不是下劃線。 這種差異并不少見。
def configuration_from_dict(details):files = Configuration.Files(input_dir=details["files"]["input-dir"],output_dir=details["files"]["output-dir"],)parameters = Configuration.Paraneters(patterns=details["parameters"]["patterns"])return Configuration(files=files,parameters=parameters,)
JSON
JSON(JavaScript Object Notation)是一種類似于 JavaScript 的格式。
以下是 JSON 格式的示例配置:
json_config = """{"files": {"input-dir": "inputs","output-dir": "outputs"},"parameters": {"patterns": ["*.txt","*.md"]}}"""
解析邏輯使用 json 模塊將 JSON 解析為 Python 的內置數據結構(字典、列表、字符串),然后從字典中創建類:
import jsondef configuration_from_json(data):parsed = json.loads(data)return configuration_from_dict(parsed)
INI
INI 格式,最初只在 Windows 上流行,之后成為配置標準格式。
這是與 INI 相同的配置:
ini_config="""[files]input-dir = inputsoutput-dir = outputs[parameters]patterns = ['*.txt', '*.md']"""
Python 可以使用內置的 configparser 模塊解析它。解析器充當類似 dict 的對象,因此可以直接傳遞給 configuration_from_dict:
import configparserdef configuration_from_ini(data):parser = configparser.ConfigParser()parser.read_string(data)return configuration_from_dict(parser)
YAML
YAML(Yet Another Markup Language)是 JSON 的擴展,旨在更易于手動編寫。為了實現了這一點,部分原因是有一個很長的規范。
以下是 YAML 中的相同配置:
yaml_config = """files:input-dir: inputsoutput-dir: outputsparameters:patterns:- '*.txt'- '*.md'"""
要讓 Python 解析它,你需要安裝第三方模塊。最受歡迎的是PyYAML(pip install pyyaml)。 YAML 解析器還返回可以傳遞給 configuration_from_dict 的內置 Python 數據類型。但是,YAML 解析器需要一個字節流,因此你需要將字符串轉換為字節流。
import ioimport yamldef configuration_from_yaml(data):fp = io.StringIO(data)parsed = yaml.safe_load(fp)return configuration_from_dict(parsed)
TOML
TOML(Tom's Own Markup Language)旨在成為 YAML 的輕量級替代品。其規范比較短,已經在一些地方流行了(比如 Rust 的包管理器 Cargo 就用它來進行包配置)。
這是與 TOML 相同的配置:
toml_config = """[files]input-dir = "inputs"output-dir = "outputs"[parameters]patterns = [ "*.txt", "*.md",]"""
為了解析 TOML,你需要安裝第三方包。最流行的一種被簡單地稱為 toml。 與 YAML 和 JSON 一樣,它返回基本的 Python 數據類型。
import tomldef configuration_from_toml(data):parsed = toml.loads(data)return configuration_from_dict(parsed)
總結
選擇配置格式是一種微妙的權衡。但是,一旦你做出決定,Python 就可以使用少量代碼來解析大多數流行的格式。



















