合成數據：它是什么以及如何使用它

作者：曉曉 2025-10-16 05:00:00

本指南旨在概述生成可靠且實用的合成數據的技術。其中包括探索概率方法、傳統機器學習(ML)技術以及大型語言模型(LLM)等高級模型的使用。

在現代數據科學和機器學習的領域中，數據是開發預測模型和進行精確分析的基礎資源。然而，真實的數據集并非總是可訪問、完整或可用的。數據稀缺、固有偏見或隱私限制等問題常常導致獲取高質量數據變得困難。這時，“合成數據”的概念應運而生：為了模擬真實數據的特征，同時保護隱私和靈活性而生成的人工數據。

本指南旨在概述生成可靠且實用的合成數據的技術。其中包括探索概率方法、傳統機器學習(ML)技術以及大型語言模型(LLM)等高級模型的使用。本指南將提供具體的使用示例，以創建用于訓練預測模型和其他分析的實用數據集，確保它們符合現實世界數據的典型約束和特征。

一、什么是合成數據

合成數據是人工生成的信息，模仿真實數據的特征。與直接從觀察、實驗或傳感器收集的數據不同，合成數據是通過算法、數學模型或高級機器學習技術生成的。其主要目的是重現真實數據集中存在的統計結構和關系，即使它們是完全虛構的。

在許多應用領域，收集的數據可能不足以構建穩健的模型。這個問題在觀測數據有限的專業領域或工業物聯網 (IoT) 應用等新興領域尤為明顯。生成合成數據可以擴展這些數據集，同時保留其基本的統計和結構屬性。

這些數據并非簡單的匿名或修改過的現有數據副本，而是可以代表原始數據集中未必出現的假設情景或變量的新組合。例如，生成合成圖像來訓練視覺識別模型，或生成表格數據來模擬經濟趨勢。

1.合成數據的發展歷程

創建合成數據的實踐可以追溯到 20 世紀七八十年代，當時計算機模擬開始在科學和工程領域獲得廣泛關注。當時，蒙特卡羅采樣等技術已經被用來基于數學分布生成數據。

21 世紀初，隨著隱私保護意識的增強以及真實數據共享法律限制的不斷增加，醫療、金融和公共服務等領域涌現出大量合成數據。近年來，機器學習的出現深刻地改變了這一格局。大型語言模型 (LLM) 等先進方法能夠創建高度逼真、關系復雜細致的數據。

2.使用合成數據的優點和缺點

以下列出了一些可能讓您考慮使用合成數據生成方法的原因。

（1）完全控制：由于數據是人工生成的，因此可以精確地建模其特征，例如分布、相關性和異常值。

（2）可擴展性：一旦設計了合成數據生成器，就可以創建任意大小的數據集，以滿足特定的計算或分析需求。

（3）減少偏差：如果設計正確，合成數據可以避免現實世界數據中常見的固有偏差。這使得模型測試能夠在更中性和可控的條件下進行。

（4）降低成本：生成合成數據通常比收集真實數據更便宜，特別是在需要復雜設備或大量資源進行獲取的領域。

（5）保護隱私：真實數據通常包含敏感信息，這些信息一旦共享，就會面臨隱私泄露的風險。由于這些數據并非與真實個人綁定，因此我們可以規避這一問題，同時仍保持分析效用。

（6）克服數據稀缺：收集足夠的數據成本高昂或不切實際，例如用罕見疾病的圖像訓練計算機視覺模型。合成數據可以在不增加額外成本的情況下擴展數據集。

（7）促進實驗和開發：合成數據為測試算法和模型提供了一個安全的環境，而不會存在暴露敏感數據或影響真實系統的風險。

（8）創建自定義場景：在某些應用中，需要模擬現實世界中難以觀察到的極端事件或不太可能發生的場景。合成數據允許以可控的方式構建這些情況。

盡管合成數據具有諸多優點，但其使用也帶來了一些挑戰：

（1）合成數據的有效性：合成數據集的質量取決于生成模型捕捉目標領域特征的能力。如果設計不當，合成數據可能會引入錯誤或扭曲的表征。

（2）法規的接受：在某些領域，合成數據的使用可能尚未被完全接受或監管，這可能會限制其在官方環境中的使用。

（3）維持復雜的關系：重現變量之間的復雜關系（例如在生物或金融系統中觀察到的關系）可能特別困難。

（4）合成偏差：雖然合成數據可以減少真實數據中存在的偏差，但如果生成模型基于錯誤的假設，則存在引入人為偏差的風險。

因此，選擇適當的技術并仔細驗證結果以確保這些數據在特定應用環境中有用且可靠至關重要。

二、合成數據生成技術

使用概率技術生成合成數據是基于使用數學分布來模擬在真實數據集中觀察到的變異性。這種方法允許您建模和創建遵循特定統計分布（例如正態分布、均勻分布或二項分布）的數據。這些方法尤其適用于：

?在受控條件下測試算法。

?為真實數據有限或不可用的情況生成數據集。

?根據定義的概率模型模擬變量之間的關系。

1.基本分布

數學分布，例如正態分布（高斯分布）、均勻分布和泊松分布，是生成合成數據的基本工具。使用 NumPy 等 Python 庫，您可以創建代表特定場景的模擬數據集。

示例：生成具有正態分布的數據集

import numpy as np 
import matplotlib.pyplot as plt 
# 生成正態分布數據mu, sigma = 0, 1 # 平均值和標準差
data_normal = np.random.normal(mu, sigma, 1000) 
# 可視化
plt.hist(data_normal, bins=30, alpha=0.7, color='blue', edgecolor='black') 
plt.title('正態分布') 
plt.xlabel('值') 
plt.ylabel('頻率') 
plt.show()

2.蒙特卡羅采樣

蒙特卡洛采樣是一種通過模擬更復雜的分布或由任意復雜函數定義的分布來生成數據的技術。當簡單分布無法滿足需求時，它是理想的選擇。

示例：使用蒙特卡洛近似積分。

import numpy as np 
import matplotlib.pyplot as plt 
# 真實分布的參數（等待時間）
real_mu = 10 # 平均值
real_sigma = 2 # 標準差n_real_samples = 10000 # 真實數據數量（樣本）
# 真實數據生成（觀測分布）
real_data = np.random.normal(real_mu, real_sigma, n_real_samples) 
# 蒙特卡洛：用于近似真實分布的漸進樣本
n_monte_carlo_samples = 500 # 蒙特卡洛樣本的最大數量
monte_carlo_data = np.random.normal(real_mu, real_sigma, n_monte_carlo_samples) 
# 創建圖表來比較真實分布和蒙特卡洛模擬
plt.figure(figsize=(12, 6)) 
# 真實分布
plt.hist(real_data, bins=30, alpha=0.5, color='blue', label='真實分布', density=True) 
# 蒙特卡洛分布
plt.hist(monte_carlo_data, bins=30, alpha=0.5, color='orange', label='蒙特卡洛', density=True) 
plt.title("真實分布與蒙特卡洛模擬的比較") 
plt.xlabel("等待時間（分鐘）") 
plt.ylabel("密度") 
plt.legend() 
plt.grid(True) 
plt.show()

3.條件分布

條件分布允許你模擬變量之間存在相關性的數據集。這對于生成維持數據集維度之間有意義關系的合成數據至關重要。

示例：多元正態分布

mean = [0, 0] # X 和 Y 的平均值
covariance = [[1, 0.8], [0.8, 1]] # 協方差矩陣
data_multivariate = np.random.multivariate_normal(mean, covariance, 500) 
# 可視化
plt.scatter(data_multivariate[:, 0], data_multivariate[:, 1], alpha=0.6) 
plt.title('多元正態分布') 
plt.xlabel('X') 
plt.ylabel('Y') 
plt.axis('equal') 
plt.show()

基于統計分布的數據生成方法具有諸多優勢。它們允許完全控制，能夠定義特定參數，確保數據按照定義明確的統計模型生成。此外，它們還具有靈活性，能夠輕松適應不同情況，例如需要單峰或多峰分布的情況。從操作角度來看，它們被證明特別高效，因為即使對于大型數據集，數據生成也快速且充分。

然而，它們也存在一些局限性。這些方法最適用于統計結構簡單清晰的數據集，但在表示復雜或非線性關系方面效果較差。此外，為了獲得有用的結果，必須深入了解分布及其參數，這要求使用方法的人具備一定的技術專業知識。

完整示例：具有特定關系的數據生成

讓我們創建一個合成數據集，其中包含兩個變量之間的噪聲線性關系，例如身高和體重。

# 參數
np.random.seed(42) 
n_samples = 1000 
slope = 2.5 # 線性關系的斜率
intercept = 50 # 截距
noise_level = 5 # 噪聲水平
# 數據生成
heights = np.random.normal(170, 10, n_samples) # 正態分布的身高
weights = slope * heights + intercept + np.random.normal(0, noise_level, n_samples) 
# 可視化
plt.scatter(heights, weights, alpha=0.6) 
plt.title('綜合線性關系 (身高 vs 體重)') 
plt.xlabel('身高 (cm)') 
plt.ylabel('體重 (kg)') 
plt.show()

4.使用傳統機器學習方法生成數據

使用傳統機器學習方法生成合成數據是一種廣泛使用的技術，用于擴展現有數據集或創建新數據集，同時保持合理的結構和分布。與深度神經網絡等高級方法不同，這些方法易于實現，并且可以直接控制生成數據的特征。

（1）高斯混合模型

高斯混合模型 (GMM) 是一種概率模型，它將數據集表示為多個高斯分布的組合。GMM 中的每個聚類都對應一個高斯分量。這種方法對于生成模擬多類數據集的數據特別有用。

示例：使用 GMM 根據樣本數據生成合成數據集

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.mixture import GaussianMixture 
# 原始數據：兩個主要聚類
np.random.seed(42) 
data_original = np.concatenate([ 
    np.random.normal(loc=0, scale=1, size=(100, 2)), 
    np.random.normal(loc=5, scale=1.5, size=(100, 2)) 
]) 
# 創建 GMM 模型
gmm = GaussianMixture(n_compnotallow=2, random_state=42) 
gmm.fit(data_original) 
# 生成新的合成數據
data_sintetici = gmm.sample(200)[0] 
# 并排可視化
fig, axes = plt.subplots(1, 2, figsize=(12, 6), sharex=True, sharey=True) 
# 原始數據圖
axes[0].scatter(data_original[:, 0], data_original[:, 1], alpha=0.6, label="Original Data") 
axes[0].legend() 
axes[0].set_title("Original Data") 
axes[0].grid(True) 
# 合成數據圖
axes[1].scatter(data_sintetici[:, 0], data_sintetici[:, 1], color='r', alpha=0.6, label="Dati Sintetici") 
axes[1].legend() 
axes[1].set_title("Synthetic Data Generated with GMM") 
axes[1].grid(True) 
plt.tight_layout() 
plt.show()

這種方法的主要優點之一是能夠直接控制聚類數量和方差，從而實現更有針對性和個性化的分析。此外，它對于具有多峰分布的數據特別有效，能夠很好地近似其結構。

然而，該方法也存在一些局限性。該方法僅適用于能夠用高斯分布建模的數據集，這限制了其應用范圍。此外，它需要預先確定最佳組件數量，這在更復雜的環境中可能是一個挑戰。

（2）生成決策樹

生成決策樹在變量之間建立條件關系。它們可用于生成遵循復雜模式的數據，例如邏輯約束或變量之間的依賴關系。

示例：根據條件規則生成合成數據集。

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.mixture import GaussianMixture 
from sklearn.tree import DecisionTreeClassifier 
import pandas as pd 
# 創建一個簡單的數據集
np.random.seed(42) 
data_original = pd.DataFrame({ 
    'Feature1': np.random.choice([0, 1], size=100), 
    'Feature2': np.random.choice([0, 1], size=100), 
    'Label': np.random.choice([0, 1], size=100) 
}) 
# 構建決策樹
X = data_original[['Feature1', 'Feature2']] 
y = data_original['Label'] 
tree = DecisionTreeClassifier(max_depth=3, random_state=42) 
tree.fit(X, y) 
# 生成新數據
syntetic_data = pd.DataFrame({     'Feature1': np.random.choice([0, 1], size=100), 
    'Feature2': np.random.choice([0, 1], size=100) 
}) 
synthesized_data['Label'] = tree.predict(synthetic_data) 
print("生成的合成數據:\n", synthesized_data.head())

這種方法的主要優點之一是其靈活性，甚至可以對復雜的規則進行建模。當您想要復制變量之間存在條件關系的數據集時，這種方法尤其有用，可以確保數據結構的一致性。

然而，該方法也存在一些局限性。它可能會導致原始數據過度擬合，從而降低其泛化能力。此外，它并非生成高變異性數據集的最佳解決方案，因為在高變異性數據集中，保持數據的代表性更加困難。

5.使用 LLM（大型語言模型）生成合成數據

大型語言模型 (LLM) 代表了生成合成數據的最先進技術之一。它們將自然語言理解和生成功能與深度學習的強大功能相結合，使其成為創建結構化、連貫且個性化數據集的理想工具。在本節中，我們將探索如何使用 LLM 生成合成數據，并通過實際示例和 Python 代碼來演示其應用。

像 GPT 或 BERT 這樣的 LLM 可以通過訓練或調整來創建合成數據，這得益于它們具有以下能力：

?理解背景：他們可以分析和生成具有復雜關系的數據，以適應特定的背景。

?個性化：它們提供生成符合用戶定義的規則或模式的數據的能力。

?對非結構化數據的有效性：它們對于生成文本和表格數據特別強大。

示例：創建表格數據集

讓我們考慮這樣一種情況：我們想要為營銷應用程序生成一個表格數據集，其中包含客戶信息，例如年齡、城市和年收入。

步驟 1：定義提示

有效的提示能夠引導大型語言模型 (LLM) 撰寫連貫的數據。以下是示例提示：

生成一個包含 10 行 4 列的數據集：\n“ 
Job”（表示人員職業的字符串）、“ 
Age”（18 到 75 之間的整數）、“ 
Country”（表示國家名稱的字符串）
和“Score”（0 到 100 之間的浮點數）。\n\n“ 
“Job | Age | Country | Score\n” 
“---------------------------------\n” “Teacher | 30 | USA | 88.5\n” 
“Engineer | 45 | UK | 92.3\n” 
“Nurse | 28 | Canada | 75.4\n” 
“Artist | 33 | France | 68.9\n” 
“Doctor | 50 | Germany | 85.1\n”

步驟2：使用Python生成數據

借助“transformers”之類的庫，我們可以與預先訓練的模型交互來生成數據集：

from transformers import GPTNeoForCausalLM, GPT2Tokenizer 
import torch 
import re 
# 加載 tokenizer 和 hugging face 模型
model_name = "EleutherAI/gpt-neo-1.3B" 
tokenizer = GPT2Tokenizer.from_pretrained(model_name) 
tokenizer.pad_token = tokenizer.eos_token 
model = GPTNeoForCausalLM.from_pretrained(model_name) 
model.config.pad_token_id = tokenizer.eos_token_id 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu") 
model.to(device) 
model.eval() 
prompt = ( 
    "生成一個包含 10 行 4 列的數據集：\n" 
    "Job（表示人員職業的字符串）、" 
    "Age（18 到 75 之間的整數）、" 
    "Country（表示國家名稱的字符串）、" 
    "and Score（浮點數）介于 0 和 100 之間）。\n\n" 
    "工作 | 年齡 | 國家 | 年收入\n" 
    "---------------------------------\n" 
    "教師 | 30 | 美國 | 88.5\n" 
    "工程師 | 45 | 英國 | 92.3\n" 
    "護士 | 28 | 加拿大 | 75.4\n" 
    "藝術家 | 33 | 法國 | 68.9\n" 
    "醫生 | 50 | 德國 | 85.1\n" 
) 
# 對提示進行編碼
inputs = tokenizer(prompt, return_tensors="pt", padding=True).to(device) 
input_ids = inputs['input_ids'] 
attention_mask = inputs['attention_mask'] 
# 生成文本
output = model.generate( 
    input_ids=input_ids,     attention_mask=attention_mask, 
    max_length=input_ids.shape[1] + 200, 
    num_return_sequences=1, 
    no_repeat_ngram_size=2, 
    do_sample=False, 
    temperature=0.7, 
    pad_token_id=tokenizer.eos_token_id 
) 
# 解碼輸出
generated_text = tokenizer.decode(output[0], skip_special_tokens=True) 
print(generated_text) 
# 提取閱讀模式
data_pattern = re.compile( 
    r"([A-Za-z\s]+)\s*\|\s*(\d{1,2})\s*\|\s*([A-Za-z\s]+)\s*\|\s*(\d{1,3}\.\d+)" 
) 
matches = data_pattern.findall(generated_text) 
print("\nExtracted Data:") 
for match in matches: 
    print(f"Job: {match[0].strip()}, Age: {match[1]}, 國家: {match[2].strip()}, 收入: {match[3]}")

提取的數據：
工作：教師，年齡：30，國家：美國，收入：88.5
工作：工程師，年齡：45，國家：英國，收入：92.3
工作：護士，年齡：28，國家：加拿大，收入：75.4
工作：藝術家，年齡：33，國家：法國，收入：68.9
工作：醫生，年齡：50，國家：德國，收入：85.1
工作：經理，年齡：25，國家：西班牙，收入：77.8
工作：銷售員，年齡：35，國家：日本，收入：73.6
工作：司機，年齡：20，國家：澳大利亞，收入：71.2
工作：辦事員，年齡：40，國家：印度，收入：70.7
工作：學生，年齡：24，國家：中國，收入：69.0
工作：面包師，年齡：22，國家：巴西，收入：66.75
工作：女傭，年齡： 23，國家：意大利，收入：65.25
職業：廚師，年齡：21，國家：希臘，收入：64.15
職業：家庭主婦，年齡：26，國家：土耳其，收入：63.85
職業：漁夫，年齡：29，國家：俄羅斯，收入：62.65
職業：搬運工，年齡：27，國家：南非，收入：61.45
職業：水手，年齡：32，國家：美國，收入：60.35
職業：士兵，年齡：31，國家：瑞典，收入：59.05
職業：警察，年齡：34，國家：荷蘭，收入：58.95
職業：護理人員，年齡：36，國家：比利時，收入：57.55
職業：建筑工人，年齡：37，國家：丹麥，收入：56.40職業：電工，年齡：38，國家：挪威，收入： 55.10

LLM（大型語言模型）擁有眾多優勢，使其成為用途極為廣泛的工具。首先，它們具有極大的靈活性：能夠生成結構化和非結構化數據，從而適應多種需求。此外，通過使用 API 和 Python 庫，它們可以簡化與工作流程的集成，從而實現快速有效的實施。

另一個積極的方面是定制的可能性：可以輕松修改提示以滿足特定需求，從而使這些模型在目標環境中更有用。

然而，需要考慮一些限制和關鍵方面。例如，生成數據的質量很大程度上取決于所使用的公式和模型的設置。

另一個需要注意的因素是偏差的存在：由于模型是從訓練數據中學習的，因此它們可能會重現數據中已經存在的偏差或扭曲。最后，成本也是一個重要因素，尤其是在生產環境中，大量使用LLM可能會導致巨額成本。

6.具有特定結構和關系的數據生成

生成具有特定結構和關系的合成數據是一項高級實踐，需要運用技術在遵循復雜約束的同時創建人工數據集。這種方法對于模擬至關重要，因為合成數據必須代表真實場景或補充現有數據集，且不損害其完整性。

在許多情況下，生成具有明確結構的數據都非常有用。例如，在金融模擬中，生成遵循變量間特定相關性的時間序列非常重要。在物理學領域，創建遵循特定方程或自然法則的數據至關重要。然而，在生物信息學中，構建考慮特定研究背景中的生物或化學約束的數據集至關重要。

主要目標是創建不僅具有統計代表性而且符合其所指應用領域的規則和關系特征的合成數據。

（1）處理復雜的關系

示例：固定總和數據生成

一個常見的情況是生成遵守總和約束的變量，例如不同部門之間的預算分配。

import numpy as np 
import pandas as pd 
# 觀察值和類別的數量
n_observations = 100 
n_categories = 3 
# 每個觀察值的總和
total_sum = 100 
# 生成隨機數據
data = np.random.dirichlet(np.ones(n_categories), size=n_observations) * total_sum 
# 創建 DataFrame 
df = pd.DataFrame(data, columns=[f"Category_{i+1}" for i in range(n_categories)]) 
df["Total"] = df.sum(axis=1) 
print("使用固定和生成的數據集示例：") 
print(df.head()) >>>

使用固定和生成的數據集示例：

Category_1 Category_2 Category_3 Total 
0 58.673361 34.972747 6.353891 100.0 
1 16.882673 14.145658 68.971669 100.0 
2 71.446625 10.170256 18.383118 100.0 
3 57.066341 37.334702 5.598957 100.0 
4 15.686990 3.622839 80.690171 100.0

狄利克雷分布用于生成隨機比例，每個比例代表總數的一部分。這些比例一旦計算出來，就會進行縮放，使其總和等于定義為 total_sum 的特定值。這樣，該函數生成的數據就遵循了基本約束，即所有比例的總和恰好等于指定的目標值。

示例：具有預定義相關性的數據

另一個常見的需求是生成具有變量之間特定相關性的合成數據。

from scipy.stats import norm 
# 數據集的維度
n_samples = 1000 
# 所需的相關矩陣
correlation_matrix = np.array([[1.0, 0.8, 0.5], [0.8, 1.0, 0.3],[0.5, 0.3, 1.0]]) 
# 創建相關數據
mean = [0, 0, 0] 
data = np.random.multivariate_normal(mean, correlation_matrix, size=n_samples) 
# 轉換為 DataFrame 
df_corr = pd.DataFrame(data, columns=["Variable_1", "Variable_2", "Variable_3"]) 
print(df_corr.corr()) 
>>> 
Variable_1 Variable_2 Variable_3 
Variable_1 1.000000 0.784861 0.490152 
Variable_2 0.784861 1.000000 0.263210
變量_3 0.490152 0.263210 1.000000

multivariate_normal 函數允許您生成遵循多元分布的數據，尊重作為輸入提供的相關矩陣建立的相關性。

（2）基于圖的模型

基于圖的模型對于模擬社交網絡、交易或信息流很有用。

導入 networkx 作為 nx
導入 pandas 作為 pd
導入 matplotlib.pyplot 作為 plt # 創建因果圖

n_nodes = 10 
p_connection = 0.3 
graph = nx.erdos_renyi_graph(n_nodes, p_connection) 
# 轉換為 DataFrame 
edges = nx.to_pandas_edgelist(graph) 
print("連接列表（弧）：") 
print(edges) 
# 圖形可視化
plt.figure(figsize=(8, 6)) 
nx.draw(graph, with_labels=True, node_color='lightblue', edge_color='gray', node_size=700, font_size=10) 
plt.title("因果圖的表示") 
plt.show()

這一背景下的主要應用包括：一方面，社交網絡的模擬，它可以分析和預測虛擬或現實社區中的互動動態和集體行為。另一方面，我們發現分布式系統中的數據流建模是理解、優化和管理復雜且互聯的技術環境中信息傳輸的關鍵活動。

（3）時間序列的自回歸模型

自回歸時間序列用于模擬具有時間依賴性的數據。

導入 numpy 作為 np
導入 networkx 作為 nx
導入 pandas 作為 pd
導入 matplotlib.pyplot 作為 plt

從 statsmodels.tsa.arima_process 導入 ArmaProcess 
# 定義 AR 和 MA 參數
ar_params = np.array([1, -0.5]) 
ma_params = np.array([1, 0.4]) 
model = ArmaProcess(ar=ar_params, ma=ma_params) 
# 生成時間序列
n_points = 200 
time_series = model.generate_sample(nsample=n_points) 
# 可視化
導入 matplotlib.pyplot 作為 plt 
plt.plot(time_series) 
plt.title("自回歸時間序列") plt.show()

三、合成數據生成中的倫理考慮和限制

合成數據的生成提供了一種創新而靈活的解決方案，可以克服與真實數據的可用性、質量和保護相關的挑戰，但它也引發了需要仔細評估的重大道德和操作問題。

一個問題涉及與真實數據過度相似的風險。如果合成數據過于忠實于原始來源，則可能會泄露個人敏感信息。此外，將這些數據與其他數據集相結合，有助于識別其中的關聯性，從而促進重新識別。

另一個關鍵問題是原始數據中存在的偏差可能會被轉移或放大。如果在生成過程中沒有進行嚴格的控制，合成數據確實可能會使類別不平衡或屬性永久化。此外，在創建過程中，可能會引入新的無意偏差，從而加劇問題。

合成數據的有效性和可用性是另一個挑戰。為了發揮作用，數據必須遵循現實世界數據固有的關系和約束，例如求和或時間序列。如果缺少這些特征，合成數據可能無法使用。此外，基于合成數據訓練的機器學習模型可能無法充分推廣到現實世界。

從監管和道德角度來看，合成數據的生成必須符合數據保護法，例如歐洲的《通用數據保護條例》（GDPR）或美國的《消費者隱私法案》（CCPA）。這意味著對原始數據進行嚴格管理，并在流程的每個階段都遵守法律要求。

四、小結

合成數據生成正逐漸成為數據科學和機器學習中的關鍵要素，尤其是在真實數據可用性受到隱私限制、偏見或缺乏代表性等因素限制的情況下。然而，其有效性取決于選擇最合適的技術，并意識到其局限性和倫理影響。

在現有的技術中，概率技術被證明能夠簡單有效地表示線性分布，盡管它們在處理復雜數據時存在局限性。傳統的機器學習方法在簡單性和捕捉更復雜結構的能力之間取得了良好的平衡。高級語言模型（例如大型語言模型）以其靈活性而著稱，能夠生成高度真實且復雜的數據，非常適合模擬、表格分析和文本等應用場景。

為了最大限度地發揮合成數據的價值，至關重要的是要根據具體需求定制生成策略，持續監控所生成數據的質量，并將其與真實數據進行比較。此外，還需要整合控制措施以減輕偏見和隱私侵犯，并及時了解該領域的快速技術發展。

責任編輯：龐桂玉來源：數據驅動智能

合成數據人工智能機器學習