#include
#include
#include
#include
#include
int main(int argc, char *argv[])
{
std::wstring str = L"123,我是谁?我爱钓鱼岛!";
std::wstring_convert> conv;
std::string narrowStr = conv.to_bytes(str);
{
std::ofstream ofs ("c:\\test.txt");
ofs << narrowStr;
}
std::wstring wideStr = conv.from_bytes(narrowStr);
{
std::locale::global(std::locale("Chinese-simplified"));
std::wofstream ofs (L"c:\\testW.txt");
ofs << wideStr;
}
}
http://zh.cppreference.com/w/cpp/locale/codecvt_utf8
以前一直以为标准库的wofstream只能输出MBCS编码的文本文件,今日接触到codecvt后,知道自己完全错了。
研究一上午后,得出以下成果(均为自己读MSDN及实验得出)。注:以下代码及说明以VS2010为准。
先说codecvt头文件(gcc里没找到),这是MSDN的解释:http://msdn.microsoft.com/zh-cn/library/ee292114.aspx
里面包含了三个类:codecvt_utf8、codecvt_utf8_utf16、codecvt_utf16,以及一个枚举类型codecvt_mode。
codecvt是用于不同文字编码转换的一个类,codecvt_utfX继承了这个类,实现了不同编码转换的功能。
codecvt与locale结合使用,实现输出、读取UTF-8及UTF-16编码文本文件。
例如UTF-8:
#include
#include
#include
#include
int main(void)
{
using namespace std;
auto LocUtf8=locale(locale(""),new codecvt_utf8
wofstream wfo(L"Hello.txt");
wfo.imbue(LocUtf8);
wfo << L"这是Utf-8编码的文本文件!";
wfo.close();
wifstream wfi(L"Hello.txt");
wstring wstr;
wfi.imbue(LocUtf8);
wfi >> wstr;
wcout.imbue(locale(""));
wcout << wstr << endl;
system("PAUSE");
}
#include
#include
#include
#include
int main(void)
{
using namespace std;
auto LocUtf16=locale(locale(""),new codecvt_utf16
wofstream wfo(L"Hello.txt");
wfo.imbue(LocUtf16);
wfo << L"这是Utf-16编码的文本文件!";
wfo.close();
wifstream wfi(L"Hello.txt");
wstring wstr;
wfi.imbue(LocUtf16);
wfi >> wstr;
wcout.imbue(locale(""));
wcout << wstr << endl;
system("PAUSE");
}
差别在这句:new codecvt_utf16再看codecvt_modeenum codecvt_mode {consume_header = 4, //自动确认bom头,在读取文件时检查。但经过尝试后无效,可能我的用法有误(文字没进来,但多了个换行符)generate_header = 2, //自动输出bom头,在输出文件时检查。little_endian = 1 //使用little endian编码(默认big endian,具体解释查看百科)};多个参数使用|(位或)连接,结果强制转换为codecvt_mode型。例如little endian编码+自动输出bom头的声明如下:new codecvt_utf16