windows下编辑过的文件在Linux下用vi打开行尾会多出一个^M符号，文本文件转换扩展 - 王志刚

一般情况下,windows下编辑过的文件在Linux下用vi打开行尾会多出一个^M符号，如下图：

这是因为Windows等操作系统用的文本换行符和UNIX/Linux操作系统用的不同，Windows系统下输入的换行符在UNIX/Linux下不会显示为“换行”，而是显示为 ^M 这个符号（这是Linux等系统下规定的特殊标记，占一个字符大小，不是 ^ 和 M 的组合，打印不出来的）。

可以使用下面几种方法处理：

1.使用vi的替换功能。启动vi，进入命令模式，输入以下命令:
:%s/^M$//g # 去掉行尾的^M。

:%s/^M//g # 去掉所有的^M。

:%s/^M/[ctrl-v]+[enter]/g # 将^M替换成回车。

:%s/^M//r/g # 将^M替换成回车。

注意：这里的“^M”要使用“CTRL-V CTRL-M”生成，而不是直接键入“^M”。

2.如果是xml文件，可以使用xmllint格式化xml文件，去掉^M：
xmllint --format test.xml


扩展：

把Windows上的文件传到Linux上，通过cat打开后，出现乱码，如下图

出现乱码的原因是由于两个操作系统对中文的压缩方式不同，Linux下使用的是utf8，而Windows使用的是.gbbk，因此Windows下正常显示的文件再Linux中打开出现乱码。

解决方法一：

在Linux终端输入： iconv -f gbk -t utf8 PythonStudy.txt > Python.txt.utf8

在当前目录下就生成了一个.utf8格式的文件，打开该文件，正常显示，如下图

解决方法二：

切换至root用户，用vim打开vimrc文件

vim /etc/vimrc

在文件的末尾加入以下内容：

set fileencodings=utf-8,gb2312,gbk,gb18030

set termencoding=utf-8

set fileformats=unix

set encoding=prc

保存退出，再使用vim打开就可以识别gb2312的中文文件

但是使用cat等打开仍然乱码

解决方法三：

用记事本打开文件，点击另存为，在下方的编码方式中选择utf-8方式

那么多种编码格式，有些理不清，那就再来看看字符编码方式的发展历程吧

字符编码发展史

1、最开始，计算机由8个晶体管表示状态，可表示的范围为0 – 256，称其为“字节”

2、计算机诞生于美国，他们把编号从0开始的32种状态分别规定了特殊的用途，称为“控制码”，如00×10, 换行；把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样就能用不同的字节来存储英语的文字了。大家把这套方案叫做Ascii编码

3、计算机迅速的发展，世界各地开始使用计算机，但是很多国家不是用的英文，他们的字母很多是ASCII码中没有的，因此用127后面的空位来表示这些新的字母，符号等，从128到255这一页的字符集被称”扩展字符集”

4、中国人得到计算机时，已经没有可以利用的字节状态来表示汉字，于是中国人毫不客气的把127后面的奇异符号直接取消，并规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在127号以下的那些就叫”半角”字符了。

中国人民把这种汉字方案叫做 “GB2312″。GB2312 是对 ASCII 的中文扩展。

5、中国的汉字太多了，还是有很多人的名字没办法打出来，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号

6、少数名族也开始用电脑了，于是再扩展，又加了几千个新的少数民族的字，GBK 扩成了GB18030

7、各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码。这时候，ISO（国际标准化组织）开始着手解决这个问题。他们的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！即UNICODE。UNICODE 包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。

8、由于”半角”英文符号只需要用到低8位，所以其高 8位永远是0，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。为了解决这个问题，UTF-8出现了，这是一种针对Unicode的可变长度字符编码。UTF-8的编码规则很简单，只有二条：

a、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的；

b、对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

因此大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作，utf-8被普遍使用

发表回复 取消回复

发表回复取消回复