文章目录

随着Visual Studio占用的空间的越来越大,有很多东西也许我们根本就用不上。而VSCode + msys2 + Mingw也许是一个不错的选择,编写控制台类应用程序完全是可以的。但是控制台类应用程序内的中文输出会有一些问题,可能会产生乱码。

下面笔者以VSCode 1.48.0+msys2+Mingw64+gcc 10.2.0为基本环境测试在Win10与Win7下的情况。

一、测试

A、Win10系统

如果是在Windows 10 October 2018 Update (build 1809)及以后的系统中应该是没有这种问题了,笔者在Win10 1909系统中使用VSCode+msys2+MinGW+GCC测试未发现有乱码。

测试程序main.cpp为UTF8编码:

1#include <stdio.h>
2
3int main()
4{
5    printf("这是一个测试\n");
6    return 0;
7}

在VSCode终端调试显示如图:

在调试终端输入chcp查看控制台CodePage为65001,即为UTF8。也就是说VSCode自动将调试终端设置为UTF8来显示输出。

再看看默认的控制台终端,显示的乱码,因为默认控制台终端使用的活动代码页为936,即GBK编码。

使用chcp 65001手动改变代码页为UTF8编码就正常显示了。

我们也可以在代码中直接设置使用UTF8代码页显示:

即使用:

SetConsoleOutputCP(65001);

来设置控制台输出代码页为UTF8,现在使用默认的控制台运行可以看到936代码页下也能正常显示。

我们再试试C++的cout:

可以看到一切正常。

B、Win7 SP1系统

1.VSCode+GCC

还是前面的测试程序,但是调试控制台显示的是乱码:

查看调试控制台代码页为65001,即UTF8,与Win10下的一致,但输出为乱码。

1"terminal.integrated.shell.windows": "C:\\Program Files\\Git\\bin\\bash.exe",

或者执行“选择默认shell”,在弹出的选项中选择Git Bash,然后重启VSCode。

我们进行编译会失败:

我记得VSCode1.47是可以的,估计是更新后的BUG,原因就是使用Windows的路径分隔符问题,Bash需要的是/而不是\。我们先手动编译:

然后调试,发现调试终端依旧是乱码。

我们把在Win7下生成的exe拿到Win10下运行,也可以正常显示。

2. VS2015

VSCode+GCC的方式有问题,我们试试MSVC,笔者使用的VS2015,源文件依旧使用UTF8编码,无

/source-charset:utf-8

编译参数,控制台属性未作任何修改(如果控制台属性有修改过的话会在注册表中留下设置,会影响后面的运行显示,特别是代码页与字体)。

运行结果:

可以看到在设置输出终端代码页为UTF8之前是乱码,但是设置之后就显示正常了。

我们再看看C++的cout输出:

 1#include <stdio.h>
 2#include <Windows.h>
 3#include <iostream>
 4
 5using namespace std;
 6
 7int main()
 8{
 9	printf("测试\n");
10	SetConsoleOutputCP(65001);
11	printf("测试\n");
12	cout << "测试\n" << endl;
13	return 0;
14}

可以看到第三行显示的是乱码,说明cout与printf函数处理方式不一样。

二、分析与总结

通过前面的测试, 我们发现Win10上控制台对UTF8的支持比较好,毕竟是新系统,只要控制台的在输出时的编码与字符编码一致即可正常显示。

而Win7下使用Mingw进行编译后,不借助第三方软件,使用系统自带的控制台,无论怎么弄,只要是UTF8的输出都是乱码;而VS2015编译的代码,printf函数的输出只要设置为UTF8终端就可以正常显示,cout的输出一样是乱码。

我们首先想到的那肯定就是MinGW的printf函数以及VS和MinGW的cout都有问题。

1. VS2015

我们首先看一下VS2015 printf函数最后调用的输出函数为:WriteFile,它是一次性将内容写入控制台终端

要想调试CRT源码需要使用参数:多线程调试(/MTd),源码位置:C:\Program Files (x86)\Windows Kits\10\Source\10.0.10240.0\ucrt\stdio

我们再看看cout的情况:

可以看到,虽然最后也是调用的WriteFile写入终端的,但是它是一个字节一个字节写入的,所以汉字就成了乱码了,从前面的图中看到“测试”这两个汉字输出了6个乱码块,因为一个汉字的UTF8编码为3个字节。

2. MinGW

我们再看看MinGW的情况:通过查找MinGW CRT的 源码(Git地址:https://git.code.sf.net/p/mingw-w64/mingw-w64),发现其printf最后都是调用的fputc函数进行单个字节输出的,它的输出方式与VS下的cout一致,所以都是乱码。

但是同样的程序在Win7下显示乱码,在Win10下却显示正常。

所以根本问题还是系统终端的问题,Win7系统对UTF8的支持不友好,而Win10要好很多。

Win7的终端不是流式设备,所以不支持流式输出,如果一个字节一个字节的输出,它是无法组成一个完整的字符来显示的,因为UTF8编码的字符串在输出的过程中需要将前面已经输出的字节删除掉,组合成一个真正的字符重新输出。

在网上搜集到了两篇文章对此作了比较深入的测试、分析与讲解: Windows Command-Line: Unicode and UTF-8 Output Text Buffer Properly print utf8 characters in windows console

三、解决UTF8的乱码问题

1. 设置参数

GCC编译器有两个命令行参数:

1-finput-charset=XXX
2-fexec-charset=XXX

我们可以设置在Windows下的-fexec-charset=GBK,如果源码为UTF8编码,设置-finput-charset=UTF-8,这样编译器会自动把字符串转为GBK编码,控制台下可以正常显示,但是VSCode的调试终端还是会是乱码,因为VSCode的调试终端的编码为UTF8。

另外,如果项目换成Clang编译器的话,目前Clang编译还不支持除UTF-8外的其它编码,不管是-finput-charset还是-fexec-charset。

所以设置参数的方式不通用。

2. 使用替换函数

根据文章中的测试与我们发现的特点,我们可以在Win7中尝试使用一次性写入终端的函数来输出。我们先使用puts函数来输出:

可以看到正常显示了,但是有一个换行符,MSDN中的说明,该函数会把字符串结束符\0换成换行符\n来输出。

为了不让puts画蛇添足进行换行,我们换一种方式:使用snprintf+fputs,可以看到是原样输出了。

为了实现Win7与Win10一致体验,我们完全可以使用自定义的函数来代替Mingw CRT中的printf函数,最简单直接的方式就是定义一个printf宏了。

 1#define printf __Print
 2
 3int __Print(const char *fmt, ...)
 4{
 5	va_list va;
 6	va_start(va, fmt);
 7	char buffer[8192];
 8	int n = vsnprintf(buffer, sizeof(buffer), fmt, va);
 9	if (n < sizeof(buffer))
10		fputs(buffer, stdout);
11	else
12	{
13		char *p = (char *)malloc(n + 1);
14		n = vsnprintf(p, n + 1, fmt, va);
15		fputs(p, stdout);
16		free(p);
17	}
18	va_end(va);
19	return n;
20}

前面只处理了printf,还有cout,下面把最终版本的源码附上:

 1#define printf(fmt, ...) __fprint(stdout, fmt, ##__VA_ARGS__ )
 2
 3int __vfprint(FILE *fp, const char *fmt, va_list va)
 4{
 5	char buffer[8192];
 6	int n = vsnprintf(buffer, sizeof(buffer), fmt, va);
 7	if (n < sizeof(buffer))
 8		fputs(buffer, fp);
 9	else
10	{
11		char *p = (char *)malloc(n + 1);
12		n = vsnprintf(p, n + 1, fmt, va);
13		fputs(p, fp);
14		free(p);
15	}
16	return n;
17}
18int __fprint(FILE *fp, const char *fmt, ...)
19{
20	va_list va;
21	va_start(va, fmt);
22	int n = __vfprint(fp, fmt, va);
23	va_end(va);
24	return n;
25}
26std::ostream &operator<<(std::ostream &out, const char *str)
27{
28	__fprint(stdout, str);
29	return out;
30}

需要注意的是:如果是在MSVC 2015及以后版本,强烈建议使用

/utf-8

编译参数,让编译器把源码与运行期都处理成UTF8编码。如果源码是老项目,以前都是GBK编码,可以分开使用下面两个参数:

/source-charset:gbk /execution-charset:utf-8

你的关注、点赞、打赏是我写作的动力