Python 原始数据中具有相似特征的合成数据生成

Python 原始数据中具有相似特征的合成数据生成,python,database,statistics,data-generation,anonymize,Python,Database,Statistics,Data Generation,Anonymize,我有包含客户敏感信息的数据集。数据包含如下图所示的整数。我正在尝试生成复制原始数据集特征的合成(匿名)数据集。通过文献综述和网络搜索,我得到了以下几种方法。我不确定哪种方法最有效。我搜索了相关的问题,但它们不符合我的目的 样本数据集: 潜在方法: 用于生成与原始数据集类似的样本 用于生成数据 拟合数据的线性回归模型 我尝试过的: 给原始数据添加了噪声 noise = np.random.lognormal(mean=3, sigma=0.33,size=len(original_da

我有包含客户敏感信息的数据集。数据包含如下图所示的整数。我正在尝试生成复制原始数据集特征的合成(匿名)数据集。通过文献综述和网络搜索,我得到了以下几种方法。我不确定哪种方法最有效。我搜索了相关的问题,但它们不符合我的目的

样本数据集:

潜在方法:

  • 用于生成与原始数据集类似的样本
  • 用于生成数据
  • 拟合数据的线性回归模型
我尝试过的:

给原始数据添加了噪声

noise = np.random.lognormal(mean=3, sigma=0.33,size=len(original_data))
但这并没有产生好的效果