Python高能小技巧：了解bytes与str的区别-益强资讯全景

系统运维: Python高能小技巧：了解bytes与str的区别
时间：2010-12-5 17:23:32  作者：系统运维   来源：IT科技  查看：  评论：0
内容摘要：bytes实例包含的是原始数据，即8位的无符号值(通常按照ASCII编码标准来显示)。a=bh\x65lloprint(list(a))print(a)>>>[104,101,108

bytes实例包含的小技是原始数据，即8位的巧解无符号值(通常按照ASCII编码标准来显示)。
a = bh\x65llo print(list(a)) print(a) >>> [104,小技 101, 108, 108, 111] bhello
str实例包含的是Unicode码点(code point，也叫作代码点)，巧解这些码点与人类语言之中的小技文本字符相对应。
a = a\u0300 propos print(list(a)) print(a) >>> [a,巧解 `,  , p, r, o, p, o, s] à propos
大家一定要记住：str实例不一定非要用某一种固定的方案编码成二进制数据，bytes实例也不一定非要按照某一种固定的小技方案解码成字符串。
要把Unicode数据转换成二进制数据，巧解必须调用str的小技encode方法。要把二进制数据转换成Unicode数据，巧解必须调用bytes的小技decode方法。
调用这些方法的巧解时候，可以明确指出自己要使用的小技编码方案，也可以采用系统默认的巧解方案，通常是小技指UTF-8(但有时也不一定，下面就会讲到这个问题)。
编写Python程序的时候，一定要把解码和编码操作放在界面最外层来做，让程序的网站模板核心部分可以使用Unicode数据来运作，这种办法通常叫作Unicode三明治(Unicode sandwich)。程序的核心部分，应该用str类型来表示Unicode数据，并且不要锁定到某种字符编码上面。
这样可以让程序接受许多种文本编码(例如Latin-1、Shift JIS及Big5)，并把它们都转化成Unicode，也能保证输出的文本信息都是用同一种标准(最好是UTF-8)编码的。
两种不同的字符类型与Python中两种常见的使用情况相对应：
开发者需要操作原始的8位值序列，序列里面的这些8位值合起来表示一个应该按UTF-8或其他标准编码的字符串。开发者需要操作通用的Unicode字符串，而不是操作某种特定编码的字符串。
我们通常需要编写两个辅助函数(helper function)，以便在这两种情况之间转换，确保输入值类型符合开发者的预期形式。
第一个辅助函数接受bytes或str实例，并返回str：
def to_str(bytes_or_str):     if isinstance(bytes_or_str, bytes):         value = bytes_or_str.decode(utf-8)     else:         value = bytes_or_str     return value  # Instance of str print(repr(to_str(bfoo))) print(repr(to_str(bar))) >>> foo bar
第二个辅助函数也接受bytes或str实例，但它返回的源码下载是bytes：
def to_bytes(bytes_or_str):     if isinstance(bytes_or_str, str):         value = bytes_or_str.encode(utf-8)     else:         value = bytes_or_str     return value  # Instance of bytes print(repr(to_bytes(bfoo))) print(repr(to_bytes(bar)))
在Python中使用原始的8位值与Unicode字符串时，有两个问题要注意。
第一个问题是，bytes与str这两种类型似乎是以相同的方式工作的，但其实例并不相互兼容，所以在传递字符序列的时候必须考虑好其类型。
可以用+操作符将bytes添加到bytes，str也可以这样。
print(bone + btwo) print(one + two) >>> bonetwo onetwo
但是不能将str实例添加到bytes实例：
bone + two >>> Traceback ... TypeError: cant concat str to bytes
也不能将bytes实例添加到str实例：
one + btwo >>> Traceback ... TypeError: can only concatenate str (not "bytes") to str
bytes与bytes之间可以用二元操作符(binary operator)来比较大小，str与str之间也可以：
assert bred > bblue assert red > blue
但是str实例不能与bytes实例比较：
assert red > bblue
反过来也一样，也就是说bytes实例不能与str实例比较：
assert bblue < red
判断bytes与str实例是否相等，总是会评估为假(False)，即便这两个实例表示的字符完全相同，它们也不相等。例如，在下面这个例子里，它们表示的字符串都相当于ASCII编码之中的foo。
print(bfoo == foo) >>> False
两种类型的香港云服务器实例都可以出现在%操作符的右侧，用来替换左侧那个格式字符串(format string)里面的%s。
print(bred %s % bblue) print(red %s % blue) >>> bred blue red blue
如果格式字符串是bytes类型，那么不能用str实例来替换其中的%s，因为Python不知道这个str应该按照什么方案来编码。
print(bred %s % blue)
但反过来却可以，也就是说如果格式字符串是str类型，则可以用bytes实例来替换其中的%s，问题是，这可能跟你想要的结果不一样。
print(red %s % bblue) >>> red bblue
这样做，会让系统在bytes实例上面调用__repr__方法，然后用这次调用所得到的结果替换格式字符串里的%s，因此程序会直接输出bblue，而不是像你想的那样，输出blue本身。
第二个问题发生在操作文件句柄的时候，这里的句柄指由内置的open函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作，而不能采用原始的bytes。习惯了Python 2的开发者，尤其容易碰到这个问题，进而导致程序出现奇怪的错误。例如，向文件写入二进制数据的时候，下面这种写法其实是错误的。
with open(data.bin, w) as f:     f.write(b\xf1\xf2\xf3\xf4\xf5) >>> Traceback ... TypeError: write() argument must be str, not bytes
程序发生异常是因为在调用open函数时，指定的是w模式，所以系统要求必须以文本模式写入。如果想用二进制模式，那应该指定wb才对。在文本模式下，write方法接受的是包含Unicode数据的str实例，不是包含二进制数据的bytes实例。所以，我们得把模式改成wb来解决该问题。
with open(data.bin, wb) as f:     f.write(b\xf1\xf2\xf3\xf4\xf5)
读取文件的时候也有类似的问题。例如，如果要把刚才写入的二进制文件读出来，那么不能用下面这种写法。
with open(data.bin, r) as f:     data = f.read()
程序出错，是因为在调用open函数时指定的是r模式，所以系统要求必须以文本模式来读取。若要用二进制格式读取，应该指定rb。以文本模式操纵句柄时，系统会采用默认的文本编码方案处理二进制数据。
所以，上面那种写法会让系统通过bytes.decode把这份数据解码成str字符串，再用str.encode把字符串编码成二进制值。然而对于大多数系统来说，默认的文本编码方案是UTF-8，所以系统很可能会把b\xf1\xf2\xf3\xf4\xf5当成UTF-8格式的字符串去解码，于是就会出现上面那样的错误。为了修正错误，需要把模式改成rb。
with open(data.bin, rb) as f:     data = f.read() assert data == b\xf1\xf2\xf3\xf4\xf5
另一种改法是在调用open函数的时候，通过encoding参数明确指定编码标准，以确保平台特有的一些行为不会干扰代码的运行效果。例如，假设刚才写到文件里的那些二进制数据表示的是一个采用cp1252标准(cp1252是一种老式的Windows编码方案)来编码的字符串，则可以这样写：
with open(data.bin, r, encoding=cp1252) as f:     data = f.read() assert data == ñòóôõ
这样程序就不会出现异常了，但返回的字符串也与读取原始字节数据所返回的有很大区别。通过这个例子，我们要提醒自己注意当前操作系统默认的编码标准(可以执行 python3 -c import locale; print(
locale.getpreferredencoding())命令查看)，了解它与你所期望的是否一致。如果不确定，那就在调用open时明确指定encoding参数。
要点
bytes包含的是由8位值所组成的序列，str包含的是由Unicode码点所组成的序列。我们可以编写辅助函数来确保程序收到的字符序列确实是期望要操作的类型(要知道自己想操作的到底是Unicode码点，还是原始的8位值。用UTF-8标准给字符串编码，得到的就是这样的一系列8位值)。 bytes与str这两种实例不能在某些操作符(例如>、==、+、%操作符)上面混用。从文件中读取二进制数据(或者把二进制数据写入文件)时，应该用rb(wb)这样的二进制模式打开文件。如果要从文件中读取(或者要写入文件之中)的是Unicode数据，那么必须注意系统默认的文本编码方案。若无法肯定，可通过encoding参数明确指定。
如果你的潜在终端必须是这个米（域名），那么潜在终端并不多，也没有硬通货，那么你的域名应该在终端有兴趣购买时出售。否则，你可能得自己留着吃。
公司名字不但要与其经营理念、活动识别相统一，还要能反映公司理念，服务宗旨、商品形象，从而才能使人看到或听到公司的名称就能产生愉快的联想，对商店产生好感。这样有助于公司树立良好的形象。

最近更新

2025-10-04 18:31:26
在众多公司中，如果我们必须选择一家可信的公司，那当然是信得过的。
2025-10-04 18:31:26
MySQL到底是如何做到多版本并发的？
2025-10-04 18:31:26
手把手教你用Python批量实现在Excel后里面新加一列，并且内容为Excel表名
2025-10-04 18:31:26
Redisson 分布式锁源码之一：可重入锁加锁
2025-10-04 18:31:26
3、不明先知，根据相关征兆预测可能发生的事件，以便提前做好准备，赶紧注册相关域名。；不差钱域名；buchaqian抢先注册，就是这种敏感类型。预言是最敏感的状态。其次，你应该有眼力。所谓眼力，就是善于从社会上时不时出现的各种热点事件中获取与事件相关的域名资源。眼力的前提是对域名领域的熟悉和丰富的知识。
2025-10-04 18:31:26
Redisson 分布式锁源码之一：可重入锁加锁
2025-10-04 18:31:26
权重域名有用嘛？
2025-10-04 18:31:26
.fashion：时尚产业的新兴域名后缀

热门排行

2025-10-04 18:31:26
5、企业注册国内域名需要证件，其它情况一律不需要证件。
2025-10-04 18:31:26
Webpack原理与实践：webpack如何利用插件机制横向扩展构建能力？
2025-10-04 18:31:26
怎么注册申请.net域名?.net域名有什么优势?
2025-10-04 18:31:26
计算 Python 代码的内存和模型显存消耗的小技巧
2025-10-04 18:31:26
4、待所有域名查询结束后可在右侧点击导出结果，即可以excel的文件方式将查询到的结果导出。
2025-10-04 18:31:26
怎样申请公司域名？
2025-10-04 18:31:26
MySQL中的SQL Mode及其作用
2025-10-04 18:31:26
MySQL千万级数据的表如何优化

友情链接

Python高能小技巧：了解bytes与str的区别

要点