go语言统计汉字长度 golang 字符串长度

go 语言中的 rune

rune是Go语言中一种特殊的数据类型,它是int32的别名,几乎在所有方面等同于int32,用于区分字符值和整数值，官方解释如下：

目前创新互联已为近1000家的企业提供了网站建设、域名、网页空间、网站托管、服务器租用、企业网站设计、荆州网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

下面我们通过一个例子来看一下：

我们猜测一下结果，hello5 个字符+1 个空格+3 个汉子，算起来应该是 9 个，长度为 9 才对，但是我们执行一下，

结果打印是 15，这是为什么呢？

所以计算出的长度就等于 5+1+3*3=15

如果我们需要计算出字符串的长度，而不是底层字节的个数，那么可以使用下面的方法：

运行结果如下：

在 rune 定义上方还有一个，byte = uint8

go命令行参数长度限制

go命令行参数的长度限制取决于操作系统的限制。根据查询相关公开信息显示，命令行参数的长度限制为最大值为32767个字符。在Windows中，命令行参数的长度限制为8191个字符。此外，不同的shell程序对命令行参数的长度限制也可能有所不同。一般而言，在编写命令行程序时，应该尽可能避免使用过长的命令行参数，以确保程序的可靠性和兼容性。

Go中字符串的遍历

首先说一下go中的字符串类型：

字符串就是一串固定长度的字符连接起来的字符序列。Go的字符串是由单个字节连接起来的。Go语言的字符串的字节使用UTF-8编码标识Unicode文本。

下面介绍字符串的三种遍历方式，根据实际情况选择即可。

该遍历方式==缺点==：遍历是按照字节遍历，因此如果有中文等非英文字符，就会出现乱码,比如要遍历"abc北京"这个字符串，效果如下:

可见这不是我们想要的效果，根据utf-8中文编码规则，我们要str[3]str[4]str[5]三个字节合起来组成“北”字及 str[6]str[7]str[8]合起来组成“京”字。由此引出下面第二种遍历方法。

该方式是按照字符遍历的，所以不会出现乱码，如下：

运行结果：

从图中可以看到第二个汉子“京”的开始下标是6，直接跳过了4和5，可见确实依照utf8编码方式将三个字节组合成了一个汉字，str[3]-str[5]组合成“北”字，str[6]-str[8]组合成了“京”字。

由于下标的不确定性，所以引出了下面的遍历方式。

1 可以先将字符串转成 []rune 切片

2 再用常规方法进行遍历

运行效果：

由此可见下标是按1递增的，没有产生跳跃现象。

golang unicode/utf8源码分析

包 utf-8 实现的功能和常量用于文章utf8编码,包含runes和utf8字节序列的转换功能.在unicode中，一个中文占两个字节，utf-8中一个中文占三个字节，golang默认的编码是utf-8编码，因此默认一个中文占三个字节，但是golang中的字符串底层实际上是一个byte数组.

Output:

RuneSelf该值的字节码值为128，在判断是否是常规的ascii码是使用。hicb字节码值为191. FF 的对应的字节码为255。

计算字符串中的rune数量,原理：首先取出字符串的码值，然后判断是不是个小于128的，如果是小于则直接continue.rune个数++.

如果是个十六进制f1.的则是无效字符，直接continue.rune个数++,也就是说一个无效的字符也当成一个字长为1的rune.如果字符的码值在first列表中的值和7按位的结果为其字长，比如上面示例中的钢。其字长为三位，第一位的值为 233 .二进制形式为 11101001 ;与7按位与后的值为0.从acceptRanges中取出的结果为{locb, hicb}。也就是标识 ox80 到 0xbf 之间的值。而结果n也就是直接size+3跳过3个字节后，rune个数++。其他函数的处理流程差不多，不再过多叙述。

示例：

ValidString返回值表明参数字符串是否是一个合法的可utf8编码的字符串。

RuneCount返回参数中包含的rune数量,第一个例子中将 utf8.RuneCountInString ,改成该方法调用，返回的结果相同。错误的和短的被当成一个长一字节的rune.单个字符 H 就表示一个长度为1字节的rune.

该函数标识参数是否以一个可编码的rune开头,上面的例子中，因为字符串是以一个ascii码值在0-127内的字符开头，所以在执行

first[p[0]] 时，取到的是 p[0] 是72,在first列表中，127之前的值都相同都为 0xF0 ,十进制标识为240，与7按位与后值为0，所以，直接返回 true .

和FullRune类似，只是参数为字符串形式

名称栏目：go语言统计汉字长度 golang 字符串长度
URL标题：http://mswzjz.cn/article/ddooeph.html

网站建设知识

go语言统计汉字长度 golang 字符串长度

go 语言中的 rune

go命令行参数长度限制

Go中字符串的遍历

golang unicode/utf8源码分析

其他资讯