Go内存中的字符串操作

内存中的字符串类型详细描述了字符串在内存中的结构及其类型信息。

为桃江等地区用户提供了全套网页设计制作服务,及桃江网站建设行业解决方案。主营业务为成都网站设计、做网站、桃江网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!

本文主要研究字符串的各种操作(语法糖),在内存中实际的样子。

环境

 
 
 
 
  1. OS : Ubuntu 20.04.2 LTS; x86_64 
  2. Go : go version go1.16.2 linux/amd64 

声明

操作系统、处理器架构、Go版本不同,均有可能造成相同的源码编译后运行时的寄存器值、内存地址、数据结构不同。

本文仅保证学习过程中的分析数据在当前环境下的准确有效性。

操作类型

比较

  • 相等性比较
  • 不等性比较

连接(相加)

与[]byte的转换

与[]byte的拷贝

代码清单

 
 
 
 
  1. package main 
  2.  
  3. import ( 
  4.   "fmt" 
  5.  
  6. func main() { 
  7.   var array [20]byte 
  8.   var s = "copy hello world" 
  9.   string2slice(s) 
  10.   copyString(array[:], s) 
  11.   slice2string(array[:]) 
  12.   compare() 
  13.   concat() 
  14.  
  15. //go:noinline 
  16. func copyString(slice []byte, s string) { 
  17.   copy(slice, s) 
  18.   PrintSlice(slice) 
  19.  
  20. //go:noinline 
  21. func string2slice(s string) { 
  22.   PrintSlice([]byte(s)) 
  23.  
  24. //go:noinline 
  25. func slice2string(slice []byte) { 
  26.   PrintString(string(slice)) 
  27.  
  28. //go:noinline 
  29. func compare() { 
  30.   var h = "hello" 
  31.   var w = "world!" 
  32.   PrintBool(h > w) 
  33.   PrintBool(h < w) 
  34.   PrintBool(h >= w) 
  35.   PrintBool(h <= w) 
  36.   PrintBool(h != w) // PrintBool(true) 
  37.   PrintBool(h == w) // PrintBool(false) 
  38.   PrintBool(testEqual(h, w)) 
  39.   PrintBool(testNotEqual(h, w)) 
  40.  
  41. //go:noinline 
  42. func testEqual(h, w string) bool { 
  43.   return h == w 
  44.  
  45. //go:noinline 
  46. func testNotEqual(h, w string) bool { 
  47.   return h != w 
  48.  
  49. //go:noinline 
  50. func concat() { 
  51.   hello := "hello " 
  52.   world := "world" 
  53.   jack := "Jack" 
  54.   rose := " Rose " 
  55.   lucy := "Lucy" 
  56.   lily := " Lily " 
  57.   ex := "!" 
  58.   PrintString(concat2(hello, world)) 
  59.   PrintString(concat3(hello, jack, ex)) 
  60.   PrintString(concat4(hello, jack, rose, ex)) 
  61.   PrintString(concat5(hello, jack, rose, lucy, lily)) 
  62.   PrintString(concat6(hello, jack, rose, lucy, lily, ex)) 
  63.  
  64. //go:noinline 
  65. func concat2(a, b string) string { 
  66.   return a + b 
  67.  
  68. //go:noinline 
  69. func concat3(a, b, c string) string { 
  70.   return a + b + c 
  71.  
  72. //go:noinline 
  73. func concat4(a, b, c, d string) string { 
  74.   return a + b + c + d 
  75.  
  76. //go:noinline 
  77. func concat5(a, b, c, d, e string) string { 
  78.   return a + b + c + d + e 
  79.  
  80. //go:noinline 
  81. func concat6(a, b, c, d, e, f string) string { 
  82.   return a + b + c + d + e + f 
  83.  
  84. //go:noinline 
  85. func PrintBool(v bool) { 
  86.   fmt.Println("v =", v) 
  87.  
  88. //go:noinline 
  89. func PrintString(v string) { 
  90.   fmt.Println("s =", v) 
  91.  
  92. //go:noinline 
  93. func PrintSlice(s []byte) { 
  94.   fmt.Println("slice =", s) 
  • 添加go:noinline注解避免内联,方便指令分析
  • 定义PrintBool/PrintSlice/PrintString函数避免编译器插入runtime.convT*函数调用

深入内存

字符串转[]byte

代码清单中的string2slice函数代码非常简单,用于观察[]byte(s)具体实现逻辑,编译之后指令如下:

可以清晰地看到,我们在代码中的[]byte(s),被Go编译器替换为runtime.stringtoslicebyte函数调用。

runtime.stringtoslicebyte函数定义在runtime/string.go源码文件中,Go编译器传递给该函数的buf参数值为nil。

 
 
 
 
  1. func stringtoslicebyte(buf *tmpBuf, s string) []byte { 
  2.   var b []byte 
  3.   if buf != nil && len(s) <= len(buf) { 
  4.     *buf = tmpBuf{} 
  5.     b = buf[:len(s)] 
  6.   } else { 
  7.     b = rawbyteslice(len(s)) 
  8.   } 
  9.   copy(b, s) 
  10.   return b 

rawbyteslice函数的功能是申请一块内存用于存储拷贝后的数据。

[]byte转字符串

代码清单中的slice2string函数代码非常简单,用于观察string(slice)具体实现逻辑,编译之后指令如下:

可以清晰地看到,我们在代码中的string(slice),被Go编译器替换为runtime.slicebytetostring函数调用。

runtime.slicebytetostring函数定义在runtime/string.go源码文件中,Go编译器传递给该函数的buf参数值为nil。

拷贝字符串到[]byte

代码清单中的copyString函数代码非常简单,用于观察copy(slice, s)具体实现逻辑,编译之后指令如下:

这个逻辑稍微复杂一点点,将以上指令再次翻译为Go伪代码如下:

 
 
 
 
  1. func copyString(slice reflect.SliceHeader, s reflect.StringHeader) { 
  2.     n := slice.Len 
  3.     if slice.Len > s.Len { 
  4.         n = s.Len 
  5.     } 
  6.     if slice.Data != s.Data { 
  7.         runtime.memmove(slice.Data, s.Data, n) 
  8.     } 
  9.     PrintSlice(*(*[]byte)(unsafe.Pointer(&slice))) 

可以看到,Go编译器在copy(slice, s)这个简单易用语法糖背后做了很多的工作。

经过比较,以上伪代码与runtime/slice.go源码文件中的slicecopy函数非常相似,但又不完全一致。

不等性比较

代码清单中的compare函数测试了两个字符串的各种比较操作。

查看该函数的指令,发现Go编译器将以下四种比较操作全部转换为runtime.cmpstring函数调用:

  • >
  • <
  • >=
  • <=

runtime.cmpstring函数是一个编译器函数,不会被直接调用,声明在cmd/compile/internal/gc/builtin/runtime.go源码文件中,由汇编语言实现。

GOARCH=amd64的实现位于internal/bytealg/compare_amd64.s源码文件中。

该函数返回值可能是:

然后使用cmp汇编指令将返回值与0进行比较,再使用以下汇编指令保存最终的比较结果(true / false):

在本例中,有两个特殊的比较,分别被编译为单条指令:

  • h != w 被编译为 movb $0x1,(%rsp)
  • h == w 被编译为 movb $0x0,(%rsp)

这是因为在本例中编译器知道"hello"与"world"两个字符串不相等,所以直接在编译的时候直接把比较结果编译到机器指令中。

所以,在代码定义了testEqual和testNotEqual函数用于比较字符串变量。

相等性比较

关于相等性比较,在 内存中的字符串类型 中已经做了非常详细的分析和说明。

在本文的代码清单中,testEqual函数指令如下,与runtime.strequal函数一致,是因为编译器将runtime.strequal函数内联(inline)到了testEqual函数中。

出乎意料的是,!=与==编译后的几乎一致,只是两处指令对结果进行了相反的操作:

字符串连接(相加)

在本文的代码清单中,concat函数用于观察字符串的连接(+)操作,测试结果表明:

  • 2个字符串相加,实际调用runtime.concatstring2函数
  • 3个字符串相加,实际调用runtime.concatstring3函数
  • 4个字符串相加,实际调用runtime.concatstring4函数
  • 5个字符串相加,实际调用runtime.concatstring5函数
  • 超过5个字符串相加,实际调用runtime.concatstrings函数

以上这些函数调用,都是Go编译器的代码生成和插入工作。

在插入runtime.concatstring*函数的过程中,编译器传递给这些函数的buf参数的值为nil。

runtime.concatstring*函数的实现非常简单,这里不再进一步赘述。

小结

从以上详细的分析可以看到,我们在开发过程中,所有对字符串进行的简单操作,都会被Go编译器编码为复杂的指令和函数调用。

许多开发者喜欢使用Go进行开发,理由是Go语言非常简单、简洁。

是的,我们都喜欢这种甜甜的语法糖。

而且,发掘语法糖背后的秘密,也是很好玩的事。

本文转载自微信公众号「Golang In Memory」

分享文章:Go内存中的字符串操作
转载来于:http://www.mswzjz.cn/qtweb/news14/267314.html

攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能