Linux字符集及乱码处理

1、字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等

  1. 字符集在系统中体现形式是一个环境变量,查看当前系统终端采用的字符集的方式

[[email protected] ~]# echo $LANG            #LANG为字符集的环境变量名称

en_US.UTF-8

[[email protected] ~]# env|grep LANG        #env命令查看系统的环境变量

LANG=en_US.UTF-8

[[email protected] ~]# export|grep LANG    #export命令用于将shell变量或函数输出为环境变量

declare -x LANG="en_US.UTF-8"

[[email protected] ~]# locale            #Get locale-specific information 列出当前区域设置环境LANG=en_US.UTF-8                #指定所有与locale有关的变量的默认值

LC_CTYPE="en_US.UTF-8"            #语言符号及其分类

LC_NUMERIC="en_US.UTF-8"            #数字格式

LC_TIME="en_US.UTF-8"            #日期与时间格式

LC_COLLATE="en_US.UTF-8"            #排序规则

LC_MONETARY="en_US.UTF-8"        #货币格式

LC_MESSAGES="en_US.UTF-8"         #响应信息主要是提示信息,错误信息,状态信息,标题,标签,按钮和菜单等

LC_PAPER="en_US.UTF-8"            #默认纸张尺寸大小

LC_NAME="en_US.UTF-8"            #姓名书写方式

LC_ADDRESS="en_US.UTF-8"            #地址书写方式

LC_TELEPHONE="en_US.UTF-8"        #电话号码书写方式

LC_MEASUREMENT="en_US.UTF-8"    #度量衡表达方式

LC_IDENTIFICATION="en_US.UTF-8"    #自身包含信息元数据信息

LC_ALL=

LC_CTYPE(字符辨识编码)表示这个系统的系统现在使用的字符集是en_US.UTF-8

  1. 修改字符集的方式

1)、直接设置变量的方式修改,命令如下两条命令:

[[email protected] ~]# LANG=xxx 或者  export  LANG=xxx;

[[email protected] ~]# LC_ALL="xxx"  或者  export LC_ALL="xxx";

注:xxx为欲修改为的字符集

查看标准的字符集的方法,locale –a命令,常用的有zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8、en_US.UTF-8等

但是上述修改方式只会在当前shell中生效,新建shell此环境变量消失。

故平时登录系统执行"LANG= "这个命令的时候显示的就没有乱码的缘故,意思就是取消了字符集的显示,取消字符集还可以执行[[email protected] ~]# unset LANG这个命令。

2)、修改文件方式,通过修改/etc/sysconfig/i18n文件控制

[[email protected] ~]# vim /etc/sysconfig/i18n

LANG="en_US.UTF-8 "  系统的语言  

SYSFONT="lat0-sun16"

修改文件保存退出之后要生效要执行如下命令才可生效

[[email protected] ~]$ source /etc/sysconfig/i18n

4、vim编辑器与编码相关:

1)fileencoding,用于配置打开文件和保存文件的编码,但只能有一个值,只适合少数文件都是同种编码的环境,所以一般不使用

2)fileencodings, 从名字上看就知道是fileencoding的增强版,可以配置多种不同的编码,常见的配置为,配置好之后,列表中的文本编码只要合法,都能被vim正确 的读取,建议配置:set fileencodings=utf-bom,utf-8,gbk,gb2312,gb18030,cp936,latin1

3)encoding,vim内部编码,vim读取文件之后,但并不以读取文件的编码来处理,而是会转换成内部编码的格式,这个编码一般与操作系统相关,linux下utf-8居多,中文windows下则是gdk,建议配置:set encoding=utf-8

4)termencoding,vim输出的编码,输出指输出到操作系统或命令终端等,默认与操作系统的语言编码一致,如果使用linux命令终端,建议终端和linux系统配置相同的编码,然后配置相同的termencoding,否则顾全了vim就顾不上shell,不过如果shell不存在中文名文件,则配置终端和 termencoding一致即可,对于windows,能自动的识别gbk和utf-8,不用特殊配置,建议配置:set termencoding=utf-8

5)fileformats,用于区分操作系统,主要是回车\r\n的区别,建议配置:set fileformats=unix,dos

常见的乱码有以下几种情形

(1)将windows环境下的文件rz到linux下时文件出现乱码

解决方案:1.在rz之前使用notepad++将文件格式转化为UTF-8无BOM格式或者ANSI编码格式;2.set encoding=utf-8;

(2)secureCRT或者xterm2编辑环境中出现乱码,只需在会话选项中调节字符编码为GB2312或者UTF-8

(3)当对日志文件进行vim编辑时出现乱码,大多数情况下是因为日志文件的格式为GB2312。

解决方案:1.set encoding=GB2312;2如果方案1不起作用的话,调整secureCRT或者xterm2的编辑环境为GB2312

(4)wget下载文件名乱码

解决方案:一般情况下加上–restrict-file-names=nocontrol,例如wget --restrict-file-names=nocontrol -m www.xxx.com/

(5)cat文件正常,vim文件不正常

解决方案:

a.直接写入/etc/vim/vimrc  ,最后一行加上

修改内容为 set fileencodings=ucs-bom,utf-8,gbk,gb2312,latin1

set fileencoding=gb2312  

set termencoding=utf-8  

b.进行转码iconv -f gb2312 -t utf-8 19.txt

批量文件转码命令iconv -c -f gbk -t utf-8 $data_path/$item_uv