通過這樣分析，我讀懂了Transformer架構的輸出層

發布于 2025-7-29 00:47

瀏覽

0收藏

輸出層（Output Layer）是Transformer框架的最后一部分，負責生成最終的輸出序列。它是 Transformer 框架中連接“模型理解”與“實際應用”的橋梁，決定了模型是否能夠適配具體任務并產出有意義的結果。因此它在整個模型中起著至關重要的作用。下面我們一起來詳細了解輸出層的關鍵作用和工作原理。

一、如何理解輸出層

1.輸出層作用：

Transformer架構的輸出層是整個模型中將編碼得到的語義信息轉化為目標任務結果的部分。它的目的是將解碼器（Decoder）或編碼器（Encoder）的最終輸出映射成目標任務的輸出。主要作用包括以下幾點：

（1）. 將隱藏狀態轉換為目標任務的輸出形式。

（2）. 根據任務需求生成概率分布或連續值。

（3）. 連接模型的核心部分與損失函數，支持模型的訓練和推理。

（4）. 提供概率化的預測結果，支持解碼和生成。

（5）. 優化模型性能和計算效率，提升模型的可用性。

例如：在自然語言生成任務中輸出層將解碼器的輸出轉化為目標詞的概率分布。

2. 輸出層的結構

Transformer架構的輸出層通常由以下幾個部分組成：

通過這樣分析，我讀懂了Transformer架構的輸出層-AI.x社區

（1）. 線性層（Linear Layer）：該層負責將輸入的向量轉換為輸出的向量。它通常使用一個全連接的神經網絡層來實現。

（2）. softmax層：該層負責將輸出的向量轉換為概率分布。它通常使用softmax函數來實現。

（3）. 輸出層激活函數：該層負責將輸出的概率分布轉換為最終的輸出值。它通常使用argmax函數來實現。

3. 輸出層的工作流程

以下是Transformer架構輸出層的工作流程：

（1）. 輸入向量：輸入向量是Transformer架構的編碼器輸出的向量。

（2）. 線性層：線性層將輸入向量轉換為輸出向量。

（3）. softmax層：softmax層將輸出向量轉換為概率分布。

（4）. 輸出層激活函數：輸出層激活函數將概率分布轉換為最終的輸出值。

（5）. 輸出序列：輸出序列是Transformer架構的最終輸出。

二、構建輸出層

以下是使用 PyTorch 實現的一個典型的 Transformer 輸出層代碼：

import torch
import torch.nn as nn
import torch.nn.functional as F


class TransformerOutputLayer(nn.Module):
    def __init__(self, hidden_size, vocab_size, task_type='generation'):
        """
        Transformer 輸出層的實現
        參數:
        - hidden_size: Transformer 的隱藏層維度 (hidden_size)
        - vocab_size: 目標詞匯表大小（生成任務）或類別數（分類任務）
        - task_type: 任務類型，可選 'generation'（序列生成）或 'classification'（分類任務）
        """
        
        super(TransformerOutputLayer, self).__init__()
        self.hidden_size = hidden_size
        self.vocab_size = vocab_size
        self.task_type = task_type
        
        # 輸出層的線性映射：hidden_size -> vocab_size
        self.linear = nn.Linear(hidden_size, vocab_size)
    
    def forward(self, hidden_states, labels=None):
        """
        前向傳播
        參數:
        - hidden_states: 解碼器或編碼器的輸出，形狀為 (batch_size, seq_len, hidden_size)
        - labels: 目標標簽（可選），訓練時用于計算損失
                  - 對于生成任務: 形狀為 (batch_size, seq_len)
                  - 對于分類任務: 形狀為 (batch_size,)
        返回:
        - 如果是訓練階段且提供了 labels，則返回 (loss, logits)
        - 否則返回 logits
        """
        
        # 通過線性層映射到詞匯表或類別空間，形狀為 (batch_size, seq_len, vocab_size)
        logits = self.linear(hidden_states)
        
        # 如果是生成任務（語言建模或翻譯）
        if self.task_type == 'generation':
            # 計算 Softmax 概率分布（用于推理階段）
            probs = F.softmax(logits, dim=-1)
            if labels is not None:
                # 將 logits 轉換為 (batch_size * seq_len, vocab_size)，以適配 CrossEntropyLoss
                loss_fn = nn.CrossEntropyLoss()
                loss = loss_fn(logits.view(-1, self.vocab_size), labels.view(-1))
                return loss, logits
            return logits  # 推理階段返回 logits
        
        # 如果是分類任務（如文本分類）
        elif self.task_type == 'classification':
            # 通常只使用序列的第一個時間步 [CLS] 的輸出進行分類
            # 假設 hidden_states 的形狀為 (batch_size, seq_len, hidden_size)
            # 取第一個時間步的輸出 (batch_size, hidden_size)
            cls_hidden_state = hidden_states[:, 0, :]  # 提取 [CLS] token 的隱藏狀態
            
            # 通過線性層映射到類別空間，形狀為 (batch_size, vocab_size)
            logits = self.linear(cls_hidden_state)
            if labels is not None:
                # 計算分類任務的交叉熵損失
                loss_fn = nn.CrossEntropyLoss()
                loss = loss_fn(logits, labels)  # labels 形狀為 (batch_size,)
                return loss, logits
            return logits  # 推理階段返回 logits
        else:
            raise ValueError("Unsupported task type: {}".format(self.task_type))


# 測試代碼
if __name__ == "__main__":
    batch_size = 2
    seq_len = 5
    hidden_size = 768
    vocab_size = 10000
    
    # 創建輸出層
    output_layer = TransformerOutputLayer(hidden_size, vocab_size, task_type='generation')
    
    # 模擬解碼器的輸出 (batch_size, seq_len, hidden_size)
    hidden_states = torch.randn(batch_size, seq_len, hidden_size)
    
    # 模擬目標標簽 (batch_size, seq_len)
    labels = torch.randint(0, vocab_size, (batch_size, seq_len))
    
    # 前向傳播
    loss, logits = output_layer(hidden_states, labels)
    print("Loss:", loss.item())
    print("Logits shape:", logits.shape)  # 應為 (batch_size, seq_len, vocab_size)

代碼解析

1. 參數說明

`hidden_size`: Transformer 隱藏層的維度，通常是模型的基礎參數（如 768、1024 等）。
`vocab_size`: 輸出詞匯表的大小（生成任務）或類別數（分類任務）。
`task_type`: 指定任務類型：
`generation`: 用于生成任務（如機器翻譯、語言建模）。
`classification`: 用于分類任務（如情感分析、文本分類）。

2. 主要功能

線性映射: 使用 `nn.Linear` 將隱藏狀態從 `hidden_size` 映射到 `vocab_size`。
損失計算: 根據任務類型不同，使用適當的損失函數：
生成任務: 使用 `CrossEntropyLoss` 計算語言模型的交叉熵損失。
分類任務: 對 `[CLS]` 的隱藏狀態進行分類，也使用 `CrossEntropyLoss`。
推理階段: 如果沒有提供標簽，則只返回 logits。

3. 測試代碼

模擬了一個小型 Transformer 輸出層的使用。
為生成任務輸入了隨機的隱藏狀態和目標標簽，驗證輸出的形狀與損失計算是否正確。

輸出示例

運行上述測試代碼，可能得到如下輸出（具體數值會因隨機初始化而變化）：

Loss: 9.21034049987793
Logits shape: torch.Size([2, 5, 10000])

Loss: 顯示生成任務的交叉熵損失值。

Logits shape: 確保輸出形狀符合 `(batch_size, seq_len, vocab_size)`。

三、總結

輸出層是Transformer框架的最后一部分，負責生成最終的輸出序列。輸出層對于Transformer框架有以下幾點需要大家記住：

1. 生成輸出序列：輸出層負責將輸入向量轉換為輸出序列，這是Transformer框架的最終目標。

2. 實現序列轉換：輸出層實現了序列轉換的功能，將輸入序列轉換為輸出序列，這是Transformer框架的核心功能。

3. 控制輸出維度：輸出層可以控制輸出維度，確保輸出序列的維度與預期一致。

4. 實現分類或回歸任務：輸出層可以實現分類或回歸任務，根據輸出序列的維度和類型來確定任務類型。

5. 影響模型性能：輸出層的設計和實現會影響Transformer框架的性能，好的輸出層設計可以提高模型的準確率和效率。

6. 提供可解釋性：輸出層可以提供可解釋性，通過分析輸出序列可以了解模型的決策過程和機制。

7. 支持多任務學習：輸出層可以支持多任務學習，通過設計不同的輸出層可以實現多任務學習和多輸出序列的生成。

本文轉載自?????碼農隨心筆記?????，作者：碼農隨心筆記

標簽

Transformer

架構

序列

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂