基尼不純度:如何用它建立決策樹(shù)?
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
決策樹(shù)是機(jī)器學(xué)習(xí)中使用的最流行和功能最強(qiáng)大的分類(lèi)算法之一。顧名思義,決策樹(shù)用于根據(jù)給定的數(shù)據(jù)集做出決策。也就是說(shuō),它有助于選擇適當(dāng)?shù)奶卣饕詫?shù)分成類(lèi)似于人類(lèi)思維脈絡(luò)的子部分。
為了有效地構(gòu)建決策樹(shù),我們使用了熵/信息增益和基尼不純度的概念。讓我們看看什么是基尼不純度,以及如何將其用于構(gòu)建決策樹(shù)吧。
什么是基尼不純度?
基尼不純度是決策樹(shù)算法中用于確定根節(jié)點(diǎn)的最佳分割以及后續(xù)分割的方法。這是拆分決策樹(shù)的最流行、最簡(jiǎn)單的方法。它僅適用于分類(lèi)目標(biāo),因?yàn)樗粓?zhí)行二進(jìn)制拆分。
基尼不純度的公式如下:

基尼不純度越低,節(jié)點(diǎn)的同質(zhì)性越高。純節(jié)點(diǎn)(相同類(lèi))的基尼不純度為零。以一個(gè)數(shù)據(jù)集為例,計(jì)算基尼不純度。
該數(shù)據(jù)集包含18個(gè)學(xué)生,8個(gè)男孩和10個(gè)女孩。根據(jù)表現(xiàn)將他們分類(lèi)如下:

上述基尼不純度的計(jì)算如下:

上述計(jì)算中,為了找到拆分(根節(jié)點(diǎn))的加權(quán)基尼不純度,我們使用了子節(jié)點(diǎn)中學(xué)生的概率。對(duì)于“高于平均值”和“低于平均值”節(jié)點(diǎn),該概率僅為9/18,這是因?yàn)閮蓚€(gè)子節(jié)點(diǎn)的學(xué)生人數(shù)相等,即使每個(gè)節(jié)點(diǎn)中的男孩和女孩的數(shù)量根據(jù)其在課堂上的表現(xiàn)有所不同,結(jié)果亦是如此。
如下是使用基尼不純度拆分決策樹(shù)的步驟:
- 類(lèi)似于在熵/信息增益的做法。對(duì)于每個(gè)拆分,分別計(jì)算每個(gè)子節(jié)點(diǎn)的基尼不純度。
- 計(jì)算每個(gè)拆分的基尼不純度作為子節(jié)點(diǎn)的加權(quán)平均基尼不純度。
- 選擇基尼不純度值最低的分割。
- 重復(fù)步驟1-3,直到獲得同類(lèi)節(jié)點(diǎn)。
基尼不純度小總結(jié):
- 有助于找出根節(jié)點(diǎn)、中間節(jié)點(diǎn)和葉節(jié)點(diǎn)以開(kāi)發(fā)決策樹(shù)。
- 被CART(分類(lèi)和回歸樹(shù))算法用于分類(lèi)樹(shù)。
- 當(dāng)節(jié)點(diǎn)中的所有情況都屬于一個(gè)目標(biāo)時(shí),達(dá)到最小值(零)。
總而言之,基尼不純度比熵/信息增益更受青睞,因?yàn)樗胶?jiǎn)單且不使用計(jì)算量大而困難的對(duì)數(shù)。
































