C++ 正确地（独立于32位/64位）将浮点保存为流的二进制_C++_64 Bit_Floating Point_32 Bit

C++ 正确地（独立于32位/64位）将浮点保存为流的二进制

c++ floating-point

C++ 正确地（独立于32位/64位）将浮点保存为流的二进制,c++,64-bit,floating-point,32-bit,C++,64 Bit,Floating Point,32 Bit,显然，在我的机器上，浮子、双人床和长双人床各有不同的尺寸。似乎也没有一个严格的标准来规定每种类型需要多少字节那么，如果大小不同，如何将浮点值保存到二进制文件中，然后在不同的系统上正确读取？e、 g我的机器有8个双字节，而乔的机器有12个双字节无需以文本形式导出（例如“0.3232”），即。似乎比二进制表示要简洁得多。您可以使用Boost序列化，它可以序列化为文本、xml或二进制否则，您可以手动执行此操作，例如：您同意little endian（并检查机器是little endian还是

显然，在我的机器上，浮子、双人床和长双人床各有不同的尺寸。似乎也没有一个严格的标准来规定每种类型需要多少字节

那么，如果大小不同，如何将浮点值保存到二进制文件中，然后在不同的系统上正确读取？e、 g我的机器有8个双字节，而乔的机器有12个双字节

无需以文本形式导出（例如“0.3232”），即。似乎比二进制表示要简洁得多。

您可以使用Boost序列化，它可以序列化为文本、xml或二进制

否则，您可以手动执行此操作，例如：

您同意little endian（并检查机器是little endian还是big endian，然后重新计算）
写一个字节，浮点数有多少字节长
然后将浮点值写入流-作为小endian

您可以以独立于机器的格式存储它们。为此，您首先必须将它从您的表示转换为其他表示

一种简单的转换是将数字分析为三元组（符号、指数、有效位），并将其保存为整数。这样您就可以保持完整的精度。

您必须定义一种格式，并实现它。通常，大多数我知道的网络协议使用IEEE浮点和双精度，输出大端（但其他格式也是可能的）。使用IEEE格式的优势这就是当前大多数日常机器所使用的内部；如果您在其中一台机器上（以及其他机器（如大型机）的代码不是问题），您可以只需将punning类型转换为同样大小，并输出。例如，您可能有：

obstream&
operator<<( obstream& dest, uint64_t value )
{
    dest.put((value >> 56) & 0xFF);
    dest.put((value >> 48) & 0xFF);
    dest.put((value >> 40) & 0xFF);
    dest.put((value >> 32) & 0xFF);
    dest.put((value >> 24) & 0xFF);
    dest.put((value >> 16) & 0xFF);
    dest.put((value >>  8) & 0xFF);
    dest.put((value      ) & 0xFF);
    return dest;
}

obstream&
operator<<( obstream& dest, double value )
{
    return dest << reinterpret_cast<uint64_t const&>( value );
}

obstream&
操作员（56）和0xFF）；
目的地投入（（值>>48）和0xFF）；
目的地投入（（值>>40）和0xFF）；
目标放置（（值>>32）和0xFF）；
目的地投入（（值>>24）和0xFF）；
目的地投入（（值>>16）和0xFF）；
目标放置（（值>>8）和0xFF）；
目的地投入（（值）和0xFF）；
返回目的地；
}
妨碍&
操作员>（ibstream和源、uint64\U t和结果）
{
uint64\u t值=（source.get（）&0xFF）Boost没有解决OP的问题，Boost二进制文件不可移植，OP说他不想使用文本表示，因此文本和xml对他也不起作用。当你在一个系统上保存二进制文件，然后将它们加载到另一个不兼容的系统上时，数字的值将丢失。你应该真正集中精力n保存该值并稍后将其加载回另一个系统所需的任何表示形式。@Roland Illig:为什么该数字的值会丢失？哪个值？如果您确保始终读取和写入little endian，您可以轻松地为每个系统实现序列化器和反序列化器。这可能都在同一个代码中e、 首先测试little和big endian（可以在一行C代码中完成）而不是测试系统上可用浮点数的大小。@Markus Pilman浮点格式的变化远不止小尾数和大尾数；我已经看到四字节长度至少有三种不同的字节顺序。对于双字节有48位，或36位，或仅仅以16为基数的系统，你会怎么做？为什么你不使用字符串表示法吗，即使它看起来很臃肿？它肯定非常简单和可移植，这是很重要的。当然，“0.3232\0”只需要7个字节，这已经比你平均需要的双字节（8个）要少。因此，也许文本形式也没那么糟糕（而且对于调试也很好）。由于二进制大小为每值4-12字节，那么使用文本似乎并不特别低效，而且它更便携、更健壮、调试更容易、更易于支持向后兼容性，而且还可以使数据文件在需要时可由其他程序可读/可写。关于使用文本：对于一轮trip在不损失精度的情况下，在IEEE double中，您需要17位十进制数字。加上指数和符号，可能还有分隔符（因为格式没有固定的宽度）。它仍然是首选格式，但确实需要更多的空间（通常需要更多的转换时间）@MSalters我猜是十六进制，你是指字节的十六进制转储。在我看来，这似乎是两种格式中最糟糕的一种：它不是人类可读的，并且依赖于机器，但它仍然需要两倍于二进制的空间（16字节，而普通文本为21/22）。+1（注意：第二个代码段中的源代码表示值？）@user397772是的。我编辑了一个旧项目的代码，显然有些地方编辑错了。（我会编辑我的帖子来修复它。）
obstream&
obstream::operator<<( obstream& dest, double value )
{
    bool                isNeg = value < 0;
    if ( isNeg ) {
        value = - value;
    }
    int                 exp;
    if ( value == 0.0 ) {
        exp = 0;
    } else {
        value = ldexp( frexp( value, &exp ), 53 );
        exp += 1022;
    }
    uint64_t mant = static_cast< uint64_t >( value );
    dest.put( (isNeg ? 0x80 : 0x00) | exp >> 4 );
    dest.put( ((exp << 4) & 0xF0) | ((mant >> 48) & 0x0F) );
    dest.put( mant >> 40 );
    dest.put( mant >> 32 );
    dest.put( mant >> 24 );
    dest.put( mant >> 16 );
    dest.put( mant >>  8 );
    dest.put( mant       );
    return dest;
}

ibstream&
operator>>( ibstream& source, uint64_t& results )
{
    uint64_t value = (source.get() & 0xFF) << 56;
    value |= (source.get() & 0xFF) << 48;
    value |= (source.get() & 0xFF) << 40;
    value |= (source.get() & 0xFF) << 32;
    value |= (source.get() & 0xFF) << 24;
    value |= (source.get() & 0xFF) << 16;
    value |= (source.get() & 0xFF) <<  8;
    value |= (source.get() & 0xFF)      ;
    if ( source )
        results = value;
    return source;
}

ibstream&
operator>>( ibstream& source, double& results)
{
    uint64_t tmp;
    source >> tmp;
    if ( source )
        results = reinterpret_cast<double const&>( tmp );
    return source;
}

ibstream&
ibstream::operator>>( ibstream& source, double& results )
{
    uint64_t tmp;
    source >> tmp;
    if ( source ) {
        double f = 0.0;
        if ( (tmp & 0x7FFFFFFFFFFFFFFF) != 0 ) {
            f = ldexp( ((tmp & 0x000FFFFFFFFFFFFF) | 0x0010000000000000),
                       static_cast<int>( (tmp & 0x7FF0000000000000) >> 52 )
                                - 1022 - 53 );
        }
        if ( (tmp & 0x8000000000000000) != 0 ) {
            f = -f;
        }
        dest = f;
    }
    return source;
}