发布于 2015-06-14 01:54:21 | 445 次阅读 | 评论: 0 | 来源: 网络整理

Unicode

Unicode 是一个国际标准,用于文本的编码和表示。 它使您可以用标准格式表示来自任意语言几乎所有的字符,并能够对文本文件或网页这样的外部资源中的字符进行读写操作。

Swift 的字符串和字符类型是完全兼容 Unicode 标准的,它支持如下所述的一系列不同的 Unicode 编码。

Unicode 术语(Unicode Terminology)

Unicode 中每一个字符都可以被解释为一个或多个 unicode 标量。 字符的 unicode 标量是一个唯一的21位数字(和名称),例如U+0061表示小写的拉丁字母A ("a"),U+1F425表示小鸡表情 ("?")

当 Unicode 字符串被写进文本文件或其他存储结构当中,这些 unicode 标量将会按照 Unicode 定义的集中格式之一进行编码。其包括UTF-8(以8位代码单元进行编码) 和UTF-16(以16位代码单元进行编码)。

字符串的 Unicode 表示(Unicode Representations of Strings)

Swift 提供了几种不同的方式来访问字符串的 Unicode 表示。

您可以利用for-in来对字符串进行遍历,从而以 Unicode 字符的方式访问每一个字符值。 该过程在 使用字符 中进行了描述。

另外,能够以其他三种 Unicode 兼容的方式访问字符串的值:

  • UTF-8 代码单元集合 (利用字符串的utf8属性进行访问)
  • UTF-16 代码单元集合 (利用字符串的utf16属性进行访问)
  • 21位的 Unicode 标量值集合 (利用字符串的unicodeScalars属性进行访问)

下面由D``o``g``!?(DOG FACE,Unicode 标量为U+1F436)组成的字符串中的每一个字符代表着一种不同的表示:


let dogString = "Dog!?"

UTF-8

您可以通过遍历字符串的utf8属性来访问它的UTF-8表示。 其为UTF8View类型的属性,UTF8View是无符号8位 (UInt8) 值的集合,每一个UInt8值都是一个字符的 UTF-8 表示:


for codeUnit in dogString.utf8 {
    print("(codeUnit) ")
}
print("n")
// 68 111 103 33 240 159 144 182

上面的例子中,前四个10进制代码单元值 (68, 111, 103, 33) 代表了字符D o g!,它们的 UTF-8 表示与 ASCII 表示相同。 后四个代码单元值 (240, 159, 144, 182) 是DOG FACE的4字节 UTF-8 表示。

UTF-16

您可以通过遍历字符串的utf16属性来访问它的UTF-16表示。 其为UTF16View类型的属性,UTF16View是无符号16位 (UInt16) 值的集合,每一个UInt16都是一个字符的 UTF-16 表示:


for codeUnit in dogString.utf16 {
    print("(codeUnit) ")
}
print("n")
// 68 111 103 33 55357 56374

同样,前四个代码单元值 (68, 111, 103, 33) 代表了字符D o g!,它们的 UTF-16 代码单元和 UTF-8 完全相同。

第五和第六个代码单元值 (55357 和 56374) 是DOG FACE字符的UTF-16 表示。 第一个值为U+D83D(十进制值为 55357),第二个值为U+DC36(十进制值为 56374)。

Unicode 标量 (Unicode Scalars)

您可以通过遍历字符串的unicodeScalars属性来访问它的 Unicode 标量表示。 其为UnicodeScalarView类型的属性,UnicodeScalarViewUnicodeScalar的集合。 UnicodeScalar是21位的 Unicode 代码点。

每一个UnicodeScalar拥有一个值属性,可以返回对应的21位数值,用UInt32来表示。


for scalar in dogString.unicodeScalars {
    print("(scalar.value) ")
}
print("n")
// 68 111 103 33 128054

同样,前四个代码单元值 (68, 111, 103, 33) 代表了字符D o g!。 第五位数值,128054,是一个十六进制1F436的十进制表示。 其等同于DOG FACE的Unicode 标量 U+1F436。

作为查询字符值属性的一种替代方法,每个UnicodeScalar值也可以用来构建一个新的字符串值,比如在字符串插值中使用:


for scalar in dogString.unicodeScalars {
    println("(scalar) ")
}
// D
// o
// g
// !
// ?
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务