Go strings

  • strings是Golang提供的专门用于字符串操作的标准库
  • 字符串类型可视为特殊的切片类型,因此获取长度可直接使用内置的len函数,同时支持切片操作。
  • 字符串中的字符实际是rune类型,即一个UTF-8字符(Unicode码点)。
  • strings库包括RenderReplacer两个结构体

字符

字符是信息表示单位,字符是一种符号。不同符号在不同的编码格式下所需存储单位不一样。

例如:ASCII编码中一个英文字母会占用1个字节的存储单位,一个中文汉字则会占用2个字节的存储单位。UTF8编码中的一个英文字母会占用1个字节的存储单位,一个中文汉字则会占用3个字节的存储单位,超大字符集的中文汉字则会占用4个字节的存储单位。

Golang中字符串是一系列不可变的runes,Rune是Golang中的一个术语,代表一个码点(Code Point)。由于字符串是不可变的,两个字符串操作时会分配全新的内存空间。两个字符串操作时会循环处理字符串中每个rune,因此会增加时间复杂度。

Golang源码文件默认采用Unicode字符集,Unicode码点和内存中字节序列的变换实现使用的是UTF-8,使得Golang编程无需考虑编码转换问题。

runeint32的别名,在所有方面都等同于int32,按照惯例rune用于区分字符值与整数值。因此rune可以表示比byte多。

字节

字节是存储单位,计算机存储信息的最小单位称为bit位,二进制中的一个0或1表示一位。计算机存储容量的基本单位是字节,8个二进制位组成一个字节。

字符串类型string底层实际上是一个字节切片[]byte,因此string实际上是所有8位字节字符的集合,但不一定代表UTF-8编码的文本。然后byte字节实际上是uint8的别名,在所有方面都等同于uint8,按照惯例,byte类型用于区分字节值和8位无符号整数值。

从编码上看,byte字节强调了一个字节代表的数据,而非数字,比如字符a实际上是97。rune强调的是表示Unicode的码点,即一个字符。通俗来讲,byte只能操作简单的字符,不能支持中文。而rune则能操作任意字符。

转换

  • 大小写格式、标题格式转换
  • 对于非ASCII字母需查表转换

strings.ToUpper

  • ToUpper函数将原始字符串所有字母转换的对应大写格式的全新拷贝
func ToUpper(s string) string

例如:

str := "Hello"
result := strings.ToUpper(str)
fmt.Printf("%v\n", result) //HELLO

strings.ToLower

  • ToLower函数会将原始字符串中所有字符转换为对应的小写格式后返回全新的副本
func ToLower(s string) string

例如:

str := "Hello"
result := strings.ToLower(str)
fmt.Printf("%v\n", result) //hello

string.Title

  • Title函数会将原始字符串中所有字符转换为对应的标题格式后返回全新的副本
  • 字符串的标题格式,对于英文单词是首字母大写。
  • Title函数不能正确地处理Unicode标点符号
func Title(s string) string

例如:

str := "hello world 520"
result := strings.Title(str)
fmt.Printf("%v\n", result) //Hello World 520

比较

strings.Compare

  • Compare函数会按照字典序(按字典顺序)比较两个字符串
  • 若前者大于后者则返回1,若前者等于后者则返回0, 若前者小于后者则返回-1。
  • Compare函数比使用比较运算符更加高效
func Compare(a, b string) int

例如:

str1, str2 := "hello", "Hell"
result := strings.Compare(str1, str2)
fmt.Printf("%v\n", result) //1

位置

  • 字符串或子串在父串中首次出现的位置或最后一次出现的位置

strings.Index

  • 子串substr在父串中第一次出现的索引位置,若不存在则返回-1。
func Index(s, substr string) int

例如:

str := "hello"
substr := "m"
flag := strings.Index(str, substr)
fmt.Println(flag) //-1

strings.LastIndex

  • 查找子串substr最后一次出现在子串str中的位置的索引值,若不存在则返回-1。
func LastIndex(s, substr string) int

例如:

str := "hello"
substr := "m"
flag := strings.LastIndex(str, substr)
fmt.Println(flag) //-1

切分

strings.Split

  • 字符串分割为字符串切片[]string
func Split(s, sep string) []string

sep字符串为分隔符,将字符串str拆分为多个子切片。

  • 若分隔符为空则将其切分为Unicode字符列表
  • 若目标字符串不包含分隔符则将目标字符串作为[]string字符串切片的第一个元素返回
str := "hello world"
sep := " "
result := strings.Split(str, sep)
fmt.Println(result) //[hello world]

strings.Fields

func Fields(s string) []string

以连续的空白字符作为分隔符,将目标字符串s拆分为多个子串的切片。

例如:

str := "hello world"
result := strings.Fields(str)
fmt.Println(result) //[hello world]

拼接

strings.Join

  • 通过某个字符串将字符串切片进行拼接
func Join(elems []string, sep string) string

例如:

bs := []string{"hell", "where"}
str := strings.Join(bs, ",")
fmt.Printf(str) //hell,where

包含

strings.Contains

  • 子串substr是否包含在父串str中,返回布尔值。
func Contains(s, substr string) bool {
    return Index(s, substr) >= 0
}

例如:

str := "hello"
substr := "he"
flag := strings.Contains(str, substr)
fmt.Println(flag) //true

统计

string.Count

func Count(s, substr string) int 

子串substr在父串str中非重叠出现的次数,若子串为空则返回utf8.RuneCountInString(s)+1

例如:

str := "hello"
substr := "l"
result := strings.Count(str, substr)
fmt.Println(result) //2

你可能感兴趣的:(Go strings)