Qwen大模型批量處理總結

鴻煊的學習筆記

發布于 2025-11-25 07:52

瀏覽

0收藏

?1. 系統概述

Qwen批量文件處理服務是基于OpenAI SDK風格API構建的高效、可靠的異步批處理方案。它專門用于處理無需實時響應的大規模數據推理任務，具有以下核心優勢：

成本效益：批量推理成本約為實時推理的50%，按成功請求的Token數計費
高吞吐量：支持同時處理數萬個請求，適合大規模數據處理
異步處理：提交任務后無需保持連接，系統自動處理并存儲結果
標準化接口：采用熟悉的OpenAI SDK風格，降低學習成本

主要應用場景

大規模文本生成和摘要
批量數據標注和分類
模型評測和基準測試
多語言翻譯任務
內容審核和過濾

2. 系統架構與核心組件

2.1 整體架構圖

Qwen大模型批量處理總結-AI.x社區

2.2 核心組件詳解

2.2.1 Files API

文件驗證：檢查格式、大小、內容安全性
文件上傳：支持多種格式，自動分塊傳輸
存儲管理：持久化存儲輸入輸出文件

2.2.2 Batches API

任務創建：初始化批量處理任務
狀態跟蹤：實時監控任務進度
結果管理：處理輸出和錯誤文件

2.2.3 任務調度器

隊列管理：智能調度任務執行順序
負載均衡：分配資源，避免過載
容錯處理：自動重試失敗請求

2.2.4 Qwen大模型服務

推理引擎：執行實際的內容生成
資源優化：利用vLLM等框架提升性能
質量保證：確保輸出的一致性和準確性

3. 核心API調用流程

3.1 完整處理流程圖

Qwen大模型批量處理總結-AI.x社區

3.2 完整代碼實現

import os
import time
import json
from openai import OpenAI
from datetime import datetime
import logging




class QwenBatchProcessor:
    """Qwen批量處理器完整實現"""


    def __init__(self, api_key, base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"):
        self.client = OpenAI(api_key=api_key, base_url=base_url)
        self.active_batches = {}


    def create_input_file(self, messages_list, output_path="batch_input.jsonl"):
        """創建批量處理輸入文件 (JSONL格式)"""
        with open(output_path, 'w', encoding='utf-8') as f:
            for i, messages in enumerate(messages_list):
                request_data = {
                    "custom_id": f"request_{i+1}_{int(time.time())}",
                    "method": "POST",
                    "url": "/v1/chat/completions",
                    "body": {
                        "model": "qwen-max",
                        "messages": messages,
                        "max_tokens": 2000
                    }
                }
                f.write(json.dumps(request_data, ensure_ascii=False) + '\n')
        return output_path


    def upload_file(self, file_path, purpose="batch"):
        """步驟1: 上傳文件到Qwen服務"""
        with open(file_path, "rb") as file:
            file_object = self.client.files.create(
                file=file,
                purpose=purpose
            )
        return file_object


    def create_batch_job(self, input_file_id, endpoint="/v1/chat/completions", metadata=None):
        """步驟2: 創建批量處理任務"""
        batch_config = {
            "input_file_id": input_file_id,
            "endpoint": endpoint,
            "completion_window": "24h"
        }


        if metadata:
            batch_config["metadata"] = metadata


        batch_object = self.client.batches.create(**batch_config)
        self.active_batches[batch_object.id] = batch_object
        return batch_object


    def check_job_status(self, batch_id):
        """步驟3: 檢查任務狀態"""
        return self.client.batches.retrieve(batch_id)


    def monitor_batch_status(self, batch_id, poll_interval=30, timeout=3600):
        """監控批量任務狀態 (自動輪詢)"""
        start_time = time.time()


        status_mapping = {
            "validating": {"icon": "??", "desc": "驗證中"},
            "in_progress": {"icon": "??", "desc": "處理中"},
            "completed": {"icon": "?", "desc": "已完成"},
            "failed": {"icon": "?", "desc": "失敗"},
            "expired": {"icon": "?", "desc": "已過期"},
            "cancelled": {"icon": "??", "desc": "已取消"}
        }


        while time.time() - start_time < timeout:
            batch_status = self.check_job_status(batch_id)
            current_status = batch_status.status
            status_info = status_mapping.get(current_status, {"icon": "?", "desc": "未知"})


            print(f"{status_info['icon']} 任務狀態: {status_info['desc']} ({current_status})")


            if current_status in ["completed", "failed", "expired", "cancelled"]:
                return batch_status


            time.sleep(poll_interval)


        raise TimeoutError(f"任務監控超時，已等待 {timeout} 秒")


    def get_output_file_id(self, batch_id):
        """步驟4: 獲取輸出文件ID"""
        batch_status = self.check_job_status(batch_id)
        return batch_status.output_file_id


    def get_error_file_id(self, batch_id):
        """步驟5: 獲取錯誤文件ID"""
        batch_status = self.check_job_status(batch_id)
        return getattr(batch_status, 'error_file_id', None)


    def download_results(self, file_id, output_path=None):
        """步驟6: 下載結果文件"""
        file_content = self.client.files.content(file_id).text


        if output_path:
            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(file_content)


        return file_content


    def download_errors(self, file_id, output_path=None):
        """步驟7: 下載錯誤文件"""
        if not file_id:
            return None
        return self.download_results(file_id, output_path)


    def safe_batch_operation(self, operation_func, max_retries=3, initial_delay=1):
        """安全批量操作包裝器 - 帶重試機制"""
        last_exception = None


        for attempt in range(max_retries + 1):
            try:
                return operation_func()
            except Exception as e:
                last_exception = e
                if attempt < max_retries:
                    delay = initial_delay * (2 ** attempt)
                    print(f"?? 操作失敗，{delay}秒后重試 (嘗試 {attempt + 1}/{max_retries}): {str(e)}")
                    time.sleep(delay)
                else:
                    raise last_exception


# 使用示例
if __name__ == "__main__":
    API_KEY = "your-dashscope-api-key-here"
    processor = QwenBatchProcessor(api_key=API_KEY)


    test_messages = [
        [{"role": "user", "content": "請用一句話介紹人工智能"}],
        [{"role": "user", "content": "解釋一下機器學習的基本概念"}],
    ]


    # 執行完整工作流
    input_file_path = processor.create_input_file(test_messages)
    input_file = processor.upload_file(input_file_path)
    batch_job = processor.create_batch_job(input_file.id)
    final_status = processor.monitor_batch_status(batch_job.id)


    if final_status.status == 'completed':
        output_file_id = processor.get_output_file_id(batch_job.id)
        results = processor.download_results(output_file_id, "output.jsonl")
        print("批量處理完成！")

4. 文件處理規范

4.1 文件格式要求

輸入文件必須為UTF-8編碼的JSONL格式：

{"custom_id": "request_1", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "qwen-max", "messages": [{"role": "user", "content": "你好"}]}}
{"custom_id": "request_2", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "qwen-max", "messages": [{"role": "user", "content": "介紹一下AI"}]}}

4.2 文件限制

規模限制：單個文件不超過50,000個請求，大小不超過500MB
單行限制：每個JSON對象不超過6MB
一致性要求：同一文件內所有請求使用相同的模型

4.3 文件驗證機制

格式驗證：檢查JSONL格式和必需字段
大小驗證：確保文件大小在限制范圍內
內容安全：掃描惡意代碼和注入攻擊
結構驗證：驗證請求體符合API規范

5. 任務管理與狀態監控

5.1 任務生命周期

狀態	描述	處理動作
?`??validating??`?	系統正在校驗數據文件	等待驗證完成
?`??in_progress??`?	文件驗證通過，開始處理	監控進度
?`??completed??`?	任務完成，結果可下載	下載輸出文件
?`??failed??`?	文件級錯誤，任務未執行	檢查錯誤信息
?`??expired??`?	任務運行超時	重新提交任務
?`??cancelled??`?	任務被取消	分析取消原因

5.2 狀態監控實現

def monitor_batch_status(batch_id, poll_interval=30):
    """實時監控任務狀態"""
    client = OpenAI(api_key="your-api-key")


    while True:
        batch_status = client.batches.retrieve(batch_id)
        current_status = batch_status.status


        status_info = {
            "validating": "?? 驗證中",
            "in_progress": "?? 處理中", 
            "completed": "? 已完成",
            "failed": "? 失敗"
        }.get(current_status, "未知狀態")


        print(f"{status_info} - 當前狀態: {current_status}")


        if current_status in ["completed", "failed", "expired", "cancelled"]:
            break


        time.sleep(poll_interval)

6. 錯誤處理與重試機制

Qwen大模型批量處理總結-AI.x社區

6.1 安全操作包裝器

??safe_batch_operation?? 函數提供優雅的容錯重試機制：

Qwen大模型批量處理總結-AI.x社區

6.2 錯誤類型處理策略

網絡錯誤：自動重試，采用指數退避策略
文件錯誤：記錄到錯誤文件，不進行重試
服務錯誤：服務降級處理，部分功能可用
超時錯誤：延長超時時間后重試

6.3 指數退避實現

def safe_batch_operation(operation_func, max_retries=3, initial_delay=1):
    """指數退避重試機制"""
    for attempt in range(max_retries + 1):
        try:
            return operation_func()
        except Exception as e:
            if attempt < max_retries:
                delay = initial_delay * (2 ** attempt)  # 指數退避
                time.sleep(delay)
            else:
                raise e

7. 性能優化建議

7.1 推理引擎優化

對于開源版本的Qwen模型，推薦使用vLLM推理框架：

PagedAttention內存管理：處理長文本時顯存占用減少高達65%
連續批處理：動態組合不同長度請求，QPS提升3.2倍
異步推理：充分利用GPU資源，提高吞吐量

7.2 并發處理

from concurrent.futures import ThreadPoolExecutor


def concurrent_batch_processing(file_paths, max_workers=3):
    """并發執行批量處理"""
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {
            executor.submit(process_single_batch, file_path): file_path 
            for file_path in file_paths
        }
        results = []
        for future in as_completed(futures):
            try:
                result = future.result()
                results.append(result)
            except Exception as e:
                print(f"處理失敗: {e}")
    return results

7.3 資源監控

import psutil


def monitor_system_resources():
    """實時監控系統資源"""
    memory_usage = psutil.virtual_memory()
    cpu_percent = psutil.cpu_percent(interval=1)


    print(f"內存使用率: {memory_usage.percent}%")
    print(f"CPU使用率: {cpu_percent}%")


    # 設置資源限制
    if memory_usage.percent > 80:
        print("?? 內存使用過高，建議優化批量大小")

8. 總結

8.1 輸入文件準備

使用標準JSONL格式，確保編碼正確
為每個請求分配唯一的custom_id便于追蹤
合理控制單個文件的請求數量和大小
驗證請求結構符合API規范

8.2 任務管理策略

設置合理的輪詢間隔，避免頻繁請求
監控任務狀態變化，及時處理異常
保留任務ID和文件ID用于后續查詢
實現任務超時和自動重試機制

8.3 錯誤處理與調試

實現完善的異常捕獲和日志記錄
對可重試錯誤使用指數退避策略
保存完整的錯誤信息用于問題排查
建立監控告警機制，及時發現故障

8.4 成本優化

利用批量處理的成本優勢（約實時推理的50%）
合理設置任務超時時間，避免資源浪費
監控Token使用量，優化請求內容
定期清理不再需要的文件，節省存儲成本

本文轉載自??????鴻煊的學習筆記??????，作者：乘風破浪jxj

標簽

Qwen

大模型

Token

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

Qwen大模型批量處理總結

?1. 系統概述

2. 系統架構與核心組件

2.1 整體架構圖

2.2 核心組件詳解

2.2.1 Files API

2.2.2 Batches API

2.2.3 任務調度器

2.2.4 Qwen大模型服務

3. 核心API調用流程

3.1 完整處理流程圖

3.2 完整代碼實現

4. 文件處理規范

4.1 文件格式要求

4.2 文件限制

4.3 文件驗證機制

5. 任務管理與狀態監控

5.1 任務生命周期

5.2 狀態監控實現

6. 錯誤處理與重試機制

6.1 安全操作包裝器

6.2 錯誤類型處理策略

6.3 指數退避實現

7. 性能優化建議

7.1 推理引擎優化

7.2 并發處理

7.3 資源監控

8. 總結

8.1 輸入文件準備

8.2 任務管理策略

8.3 錯誤處理與調試

8.4 成本優化

目錄