Machine learning Caffe-如何平衡Cifar10数据_Machine Learning_Neural Network_Deep Learning_Caffe

Machine learning Caffe-如何平衡Cifar10数据

machine-learning neural-network deep-learning

Machine learning Caffe-如何平衡Cifar10数据,machine-learning,neural-network,deep-learning,caffe,Machine Learning,Neural Network,Deep Learning,Caffe,我正在用caffe框架研究不平衡数据的影响。现在，我试图通过从指定的类中删除一些数据来创建一个新的cifar10发行版。我读了cifar10的文件。它说.bin文件的数据结构如下 1*8 bit label data | 3*1024 for RGB pixel 所以我写了一个脚本来过滤这些类的数据。并创建一个新的.bin文件现在我在caffe上运行脚本，并尝试创建LMDB数据集 #!/usr/bin/env sh # This script converts the cifar dat

我正在用caffe框架研究不平衡数据的影响。现在，我试图通过从指定的类中删除一些数据来创建一个新的cifar10发行版。我读了cifar10的文件。它说.bin文件的数据结构如下

1*8 bit label data |   3*1024 for RGB pixel

所以我写了一个脚本来过滤这些类的数据。并创建一个新的.bin文件

现在我在caffe上运行脚本，并尝试创建LMDB数据集

#!/usr/bin/env sh
# This script converts the cifar data into leveldb format.

EXAMPLE=examples/cifar10
DATA=data/cifar10
DBTYPE=lmdb

echo "Creating $DBTYPE..."

rm -rf $EXAMPLE/cifar10_train_$DBTYPE $EXAMPLE/cifar10_test_$DBTYPE

./build/examples/cifar10/convert_cifar_data.bin $DATA $EXAMPLE $DBTYPE

echo "Computing image mean..."

./build/tools/compute_image_mean -backend=$DBTYPE \
  $EXAMPLE/cifar10_train_$DBTYPE $EXAMPLE/mean.binaryproto

echo "Done."

但是在我过滤掉这些数据之后。看起来IMDB仍然具有相同的大小，并且看起来与未经过滤的IMDB没有任何不同。有人能告诉我应该怎么做才能使数据不平衡吗？

你写的脚本是什么？您没有提供足够的信息来理解您的问题。我打开了.bin文件，对于每个3073字节，if（first_byte=='class1'）然后删除这个3073字节。我的想法是在运行./examples/cifar10/create_cifar10.sh之前修改原始数据，因为在正式文档中，它没有指出在

data/cifar10

中更改所有批处理文件后如何实际生成数据集，而不是mnist或cifar10。更改后的bin文件保存在哪里？你给它们重命名了吗？你能确认更改的bin文件确实占用了更少的磁盘空间吗？我不会重命名它们。它们仍然被命名为

data\u batch\u 1、data\u batch\u 2…

，是的，文件大小确实变小了。我甚至删除了data_batch_1（0字节）中的所有数据，但在运行

/examples/cifar10/create_cifar10.sh

之后，仍然会得到相同的结果。cifar10\u train\u lmdb的数据大小仍然相同。您编写的脚本是什么？您没有提供足够的信息来理解您的问题。我打开了.bin文件，对于每个3073字节，if（first_byte=='class1'）然后删除这个3073字节。我的想法是在运行./examples/cifar10/create_cifar10.sh之前修改原始数据，因为在正式文档中，它没有指出在

data/cifar10

data\u batch\u 1、data\u batch\u 2…

，是的，文件大小确实变小了。我甚至删除了data_batch_1（0字节）中的所有数据，但在运行

/examples/cifar10/create_cifar10.sh

之后，仍然会得到相同的结果。cifar10列车lmdb的数据大小仍然相同。