Python/Article/PythonBasis/python18/1.md at master · walter201230/Python

各位有没有写过这样的代码？

import os

base_dir = os.path.dirname(os.path.abspath(__file__))
data_path = os.path.join(base_dir, 'data', 'sub', 'foo.txt')

if os.path.exists(data_path) and os.path.isfile(data_path):
    with open(data_path, 'r', encoding='utf-8') as f:
        content = f.read()
    print(content)

是不是看着头大？一个 os.path.dirname 套一个 os.path.abspath，再嵌一个 os.path.join，路径就这么一层一层包出来了。要打开还得 with open(...) as f:，要判断还得 os.path.exists 加 os.path.isfile，方法散落在 os 和 os.path 两个模块里，还要再加一个 open 内建函数。光是数函数名就数得我水哥头都晕。

更要命的是，路径在这套写法里只是个普通字符串。字符串就是字符串，它不知道自己代表的是文件还是目录，更不可能自己跑去判断「我存在吗」、「我是什么后缀」。所有这些操作都得拿着字符串去喂给一堆函数，函数再吐回字符串，字符串再传给下一个函数 …… 整个过程像极了车间里搬砖头的流水线。

那么有没有一种写法，让路径自己「活」起来呢？让 Path('data/foo.txt') 这种东西本身就知道自己是不是文件、能不能被读取、有什么后缀名？

有的，就是今天要聊的 pathlib。这是 Python 3.4 加进来的标准库，专门用来收拾上面这种乱糟糟的路径代码。从 Python 3.6 开始，标准库里大部分接受路径字符串的函数也都能直接吃 Path 对象，所以基本可以无痛切过来。

写到现在 Python 都 3.13 了，各位童鞋如果还在 os.path.join 一条道走到黑，那真的是亏大了。本文就跟着水哥一起，把 pathlib 这套现代 API 从头到尾捋一遍。

一、第一个 Path

先来认识一下主角：

from pathlib import Path

p = Path('data/foo.txt')
print(p)
print(type(p))

输出可能长这样（macOS / Linux 上）：

data/foo.txt
<class 'pathlib.PosixPath'>

是不是发现什么不对？我们明明是 Path('data/foo.txt')，怎么打印出来类型是 PosixPath？

这是因为 Path 是个聪明家伙，它会根据你当前的操作系统，自动给你返回对应平台的子类：

在 macOS / Linux 上，返回 PosixPath
在 Windows 上，返回 WindowsPath

各位平时基本不用关心这个，直接用 Path 就完事了，需要跨平台细节的时候再说。

除了 Path('字符串') 这种基础用法，还有两个非常常用的「快捷入口」：

from pathlib import Path

print(Path.home())
print(Path.cwd())

输出：

/Users/two_water
/Users/two_water/projects/demo

Path.home() 是当前用户的家目录，Path.cwd() 是「当前工作目录」（current working directory）。这两个相当于以前的 os.path.expanduser('~') 和 os.getcwd()，不过显然新写法看着更清爽，是不是？

二、用 `/` 来拼接路径

路径拼接是最常见的操作，没有之一。看看老写法：

import os

base = '/tmp'
data_path = os.path.join(base, 'demo', 'sub', 'foo.txt')
print(data_path)

输出：

/tmp/demo/sub/foo.txt

这个 os.path.join 用是好用，但写起来嘴里得念好几遍 os path join，手指都不想动了。

然后看看 pathlib 是怎么玩的：

from pathlib import Path

base = Path('/tmp')
data_path = base / 'demo' / 'sub' / 'foo.txt'
print(data_path)

输出：

/tmp/demo/sub/foo.txt

注意看：拼接路径用的是 / 这个操作符。是不是有点神奇？

为什么啊？因为 Path 重载了 __truediv__（也就是除法操作符），所以 Path('/tmp') / 'demo' 这种写法就被翻译成了路径拼接。这种设计简直是天才，因为路径在 URL、Linux 文件系统里用的本来就是 /，跟我们脑子里的语义完全一致。

来个对比表，看看是不是清爽多了：

老写法	新写法
`os.path.join(a, b, c)`	`Path(a) / b / c`
`os.path.join(os.path.dirname(__file__), 'data')`	`Path(__file__).parent / 'data'`
`os.path.expanduser('~/Documents')`	`Path.home() / 'Documents'`

而且 / 还可以拿一个 Path 跟字符串混着用，结果都是 Path 对象：

from pathlib import Path

p1 = Path('/tmp') / 'foo'
p2 = Path('/tmp') / Path('foo')
p3 = 'foo' / Path('/tmp')

print(p1)
print(p2)
print(p3)

输出：

/tmp/foo
/tmp/foo
/tmp/foo

不管 / 左边还是右边是字符串，只要有一边是 Path，结果就还是 Path。

三、常用属性，一锅端

各位写过爬虫或者文件处理代码的话，对「拿到一个路径，我要它的文件名」、「我要它的扩展名」这种需求肯定不陌生。老写法散布在 os.path.basename、os.path.splitext 这些函数里，记起来挺麻烦。

Path 把这些都做成属性了，一个个看。

3.1 `.name`：完整文件名（带后缀）

from pathlib import Path

p = Path('/tmp/demo/foo.txt')
print(p.name)

输出：

foo.txt

相当于以前的 os.path.basename(...)。

3.2 `.stem`：去掉后缀的「主干」

from pathlib import Path

p = Path('/tmp/demo/foo.txt')
print(p.stem)

输出：

foo

这个就是文件名去掉扩展名的部分，特别适合用来生成「同名但换后缀」的新文件，比如 foo.txt 转 foo.json。

3.3 `.suffix`：扩展名（带点）

from pathlib import Path

p = Path('/tmp/demo/foo.txt')
print(p.suffix)

输出：

.txt

注意是带点的。如果你需要不带点的，自己 [1:] 切一下就好。

那么如果是 foo.tar.gz 这种多后缀的呢？

from pathlib import Path

p = Path('archive.tar.gz')
print(p.suffix)
print(p.suffixes)

输出：

.gz
.tar.gz

看到了吗？.suffix 只给最后一个，.suffixes 给一个列表。

3.4 `.parent`：父目录

from pathlib import Path

p = Path('/tmp/demo/sub/foo.txt')
print(p.parent)

输出：

/tmp/demo/sub

相当于 os.path.dirname(...)，但读起来自然多了。

3.5 `.parents`：所有祖先目录

from pathlib import Path

p = Path('/tmp/demo/sub/foo.txt')
for ancestor in p.parents:
    print(ancestor)

输出：

/tmp/demo/sub
/tmp/demo
/tmp
/

.parents 返回的是一个序列，从最近的父目录开始一路向上找祖先。可以用 p.parents[0]、p.parents[1] 这种下标访问，也可以 for 循环。

3.6 `.anchor`：锚点

锚点是路径的「根」部分。

from pathlib import Path

p = Path('/tmp/demo/foo.txt')
print(p.anchor)

输出：

在 Linux / macOS 上一般就是 /，在 Windows 上可能是 C:\ 这种盘符。这个属性平时用得不多，但跨平台代码里偶尔会派上用场。

3.7 综合演示

各位看一个综合例子，把所有属性串起来感受一下：

from pathlib import Path

p = Path('/Users/two_water/projects/demo/main.py')

print('name    :', p.name)
print('stem    :', p.stem)
print('suffix  :', p.suffix)
print('parent  :', p.parent)
print('anchor  :', p.anchor)
print('parts   :', p.parts)

输出：

name    : main.py
stem    : main
suffix  : .py
parent  : /Users/two_water/projects/demo
anchor  : /
parts   : ('/', 'Users', 'two_water', 'projects', 'demo', 'main.py')

最后多送的一个 .parts，把整个路径切成元组，方便逐段处理。是不是发现路径在 pathlib 里彻底不是字符串了，它是一个有属性、有方法的「对象」？

四、判断和信息

光能拼路径还不够，我们经常要判断「这文件存不存在啊」、「是文件还是目录啊」。

老写法：

import os

p = '/tmp'
if os.path.exists(p):
    if os.path.isdir(p):
        print('是目录')
    elif os.path.isfile(p):
        print('是文件')

新写法：

from pathlib import Path

p = Path('/tmp')
if p.exists():
    if p.is_dir():
        print('是目录')
    elif p.is_file():
        print('是文件')

这两段长度差不多，但意思就完全不一样了。新写法里，p 自己知道「我存不存在」、「我是文件还是目录」，方法直接挂在对象上。老写法里 p 只是个字符串，所有判断都得拿到 os.path 模块里去查。

下面把常用的判断方法列一下：

方法	含义
`.exists()`	路径是否存在
`.is_file()`	是不是普通文件
`.is_dir()`	是不是目录
`.is_symlink()`	是不是软链接
`.is_absolute()`	是不是绝对路径

注意 .is_file() 和 .is_dir() 都隐含了「存在」这个条件，所以一般不用先调 .exists()。除非你想区分「不存在」和「存在但不是文件」这两种情况。

来个真实例子：

from pathlib import Path

p = Path('/tmp')
print('exists  :', p.exists())
print('is_dir  :', p.is_dir())
print('is_file :', p.is_file())

/tmp 在 macOS / Linux 上是一定存在的目录，所以输出会是：

exists  : True
is_dir  : True
is_file : False

4.1 拿到详细信息：`.stat()`

如果想知道文件大小、修改时间这些更详细的信息，用 .stat()：

from pathlib import Path
import datetime

p = Path('/tmp')
info = p.stat()
print('size      :', info.st_size, 'bytes')
print('mtime ts  :', info.st_mtime)
print('mtime str :', datetime.datetime.fromtimestamp(info.st_mtime))

.stat() 返回的是一个 os.stat_result 对象，常用字段有：

.st_size：文件大小（字节）
.st_mtime：最后修改时间（Unix 时间戳）
.st_ctime：创建时间（具体含义因系统而异）
.st_mode：权限位

时间戳是浮点数，要变成可读时间，可以用 datetime.datetime.fromtimestamp(...) 转一下。

五、遍历目录

各位有没有写过「找出某个文件夹下所有 .py 文件」这种代码？老写法基本得 os.walk，写起来有点费劲。pathlib 给了三个利器。

5.1 `.iterdir()`：只列当前目录下一层

from pathlib import Path

root = Path('/tmp')
for child in root.iterdir():
    print(child)

/tmp 下一层的所有内容（文件 + 目录）都会被列出来。注意 .iterdir() 不递归，只看当前目录这一层。

如果只想要文件，加个判断：

from pathlib import Path

root = Path('/tmp')
files = [c for c in root.iterdir() if c.is_file()]
print(f'共有 {len(files)} 个文件')

5.2 `.glob(pattern)`：匹配模式（仅当前目录）

.glob 用的是 shell 那种通配符，星号 * 代表任意字符（不包括路径分隔符），问号 ? 代表单个字符。

from pathlib import Path

root = Path('/tmp')
for txt in root.glob('*.txt'):
    print(txt)

这段代码会列出 /tmp 目录下所有以 .txt 结尾的文件。但 .txt 在子目录里的不会被找到。

5.3 `.rglob(pattern)`：递归匹配

.rglob 是 .glob('**/' + pattern) 的简写，意思是「递归地在所有子目录里找」。

from pathlib import Path

root = Path('/tmp')
md_files = list(root.rglob('*.md'))
print(f'找到 {len(md_files)} 个 markdown 文件')

这段代码会把 /tmp 目录下、所有子孙目录里的 .md 文件全找出来。

5.4 实战：找出某目录下所有 Python 文件

来个综合例子，找出某目录下所有 .py 文件并统计：

from pathlib import Path

root = Path.cwd()
py_files = list(root.rglob('*.py'))

print(f'在 {root} 下找到 {len(py_files)} 个 .py 文件')
for f in py_files[:5]:
    print(' -', f.relative_to(root))

Path.cwd() 是当前工作目录，.rglob('*.py') 递归找所有 .py。.relative_to(root) 是把绝对路径转成相对路径，看起来更清爽。

各位自己跑一下，应该会看到当前项目里的 .py 文件列表。这种写法是不是比 os.walk 加 endswith('.py') 那一套清爽不止一截？

六、读写文件

这是 pathlib 最让我感动的功能之一。

老写法读文件：

with open('/tmp/foo.txt', 'r', encoding='utf-8') as f:
    content = f.read()
print(content)

老写法写文件：

with open('/tmp/foo.txt', 'w', encoding='utf-8') as f:
    f.write('hello two_water')

with open(...) as f: 这一坨已经成了 Python 的「肌肉记忆」，但说实话，要读取一个文件的全部内容，还要写这么一行 + 缩进一行，是不是有点 …… 啰嗦？

6.1 `.read_text()` 一行读完

from pathlib import Path

p = Path('/tmp/two_water_demo.txt')
p.write_text('hello two_water', encoding='utf-8')

content = p.read_text(encoding='utf-8')
print(content)

输出：

hello two_water

是不是清爽？.read_text() 直接把整个文件读成字符串，不用 with、不用 open、不用 f.read()。

6.2 `.write_text()` 一行写完

from pathlib import Path

p = Path('/tmp/two_water_demo.txt')
p.write_text('两点水的打卡记录\n', encoding='utf-8')
print(p.read_text(encoding='utf-8'))

.write_text(s) 会把字符串 s 写入文件，如果文件已经存在，会被覆盖（注意，是覆盖不是追加）。返回值是写入的字符数。

6.3 二进制读写：`.read_bytes()` 和 `.write_bytes()`

文本之外，二进制也有对应方法：

from pathlib import Path

p = Path('/tmp/two_water_bin.dat')
p.write_bytes(b'\x00\x01\x02two_water')

data = p.read_bytes()
print(data)
print(len(data), 'bytes')

输出：

b'\x00\x01\x02two_water'
12 bytes

.read_bytes() 和 .write_bytes() 处理的是 bytes 对象，不需要也不能传 encoding。

6.4 什么时候还需要 `open()`？

那是不是有了 read_text / write_text，open 就没用了？

也不是。当你要做下面这些事情的时候，还得用传统的 with open(...) as f:：

读超大文件，需要逐行读，避免一次读到内存里
需要追加模式（'a'）
需要在写入过程中做复杂逻辑（比如边读边算边写）

但好消息是，Path 对象也提供了 .open() 方法，可以直接用：

from pathlib import Path

p = Path('/tmp/two_water_lines.txt')
p.write_text('line1\nline2\nline3\n', encoding='utf-8')

with p.open('r', encoding='utf-8') as f:
    for line in f:
        print(line.rstrip())

输出：

line1
line2
line3

p.open(...) 跟内建 open(p, ...) 完全等价，但更顺手——所有文件操作都从 p 这个对象出发。

七、创建和删除

创建目录、创建空文件、删除文件、删除目录，这都是经常要做的事。pathlib 都准备好了。

7.1 `.mkdir()` 创建目录

from pathlib import Path

p = Path('/tmp/two_water_demo_dir')
p.mkdir(exist_ok=True)
print(p.exists(), p.is_dir())

输出：

True True

exist_ok=True 这个参数特别有用：如果目录已经存在，不会报错；如果设成 False（默认），目录已存在就会抛 FileExistsError。

那如果父目录都不存在呢？比如要建 /tmp/a/b/c，但 a 和 b 都还没有：

from pathlib import Path

p = Path('/tmp/two_water_a/b/c')
p.mkdir(parents=True, exist_ok=True)
print(p.exists())

parents=True 就是「如果父目录不存在，一路递归创建」，等价于 shell 里的 mkdir -p。

记住这个组合拳——mkdir(parents=True, exist_ok=True)，写脚本的时候几乎闭着眼睛就能用。

7.2 `.touch()` 创建空文件

from pathlib import Path

p = Path('/tmp/two_water_demo.empty')
p.touch(exist_ok=True)
print(p.exists(), p.is_file(), p.stat().st_size)

输出大概是：

True True 0

.touch() 类似 shell 里的 touch 命令，文件不存在就创建一个空文件，存在就更新它的修改时间。

7.3 `.unlink()` 删除文件

from pathlib import Path

p = Path('/tmp/two_water_demo.empty')
if p.exists():
    p.unlink()
print('after unlink:', p.exists())

输出：

after unlink: False

.unlink() 删的是「单个文件或软链接」。如果文件不存在会报 FileNotFoundError，可以用 missing_ok=True（Python 3.8+）来避免：

from pathlib import Path

p = Path('/tmp/two_water_does_not_exist.x')
p.unlink(missing_ok=True)
print('done')

7.4 `.rmdir()` 删除空目录

from pathlib import Path

p = Path('/tmp/two_water_demo_dir')
p.mkdir(exist_ok=True)
p.rmdir()
print('after rmdir:', p.exists())

注意：.rmdir() 只能删「空目录」。要是目录里还有内容，会抛 OSError。

那要删非空目录怎么办？pathlib 自己没有提供，得靠标准库 shutil：

import shutil
from pathlib import Path

p = Path('/tmp/two_water_demo_full')
p.mkdir(exist_ok=True)
(p / 'child.txt').write_text('hi', encoding='utf-8')

shutil.rmtree(p)
print('after rmtree:', p.exists())

输出：

after rmtree: False

shutil.rmtree 是「连内容带目录一起删」，相当于 rm -rf。各位用这个的时候千万看清路径，别一不小心 rmtree('/') 把家给端了。

八、路径转换

实际项目里，路径有「相对」和「绝对」两种形态，经常需要互相转换。

8.1 `.absolute()`：转成绝对路径（不解析符号链接）

from pathlib import Path

p = Path('foo.txt')
print(p)
print(p.absolute())

输出大概长这样（取决于你当前在哪）：

foo.txt
/Users/two_water/projects/demo/foo.txt

注意 .absolute() 不要求文件真的存在，它只是把相对路径拼到当前工作目录前面，得到一个绝对形式。

8.2 `.resolve()`：转成绝对路径（并解析符号链接、`..` 等）

from pathlib import Path

p = Path('foo/../bar/./baz.txt')
print(p)
print(p.resolve())

输出（在 /tmp 下跑）：

foo/../bar/./baz.txt
/tmp/bar/baz.txt

看到了吧？.resolve() 会把 .. 和 . 这种相对引用全部「化简」掉，得到一个干净的绝对路径。它还会跟着符号链接走到真实位置。

那 .absolute() 和 .resolve() 啥时候用哪个呢？记住一条粗糙但够用的规则：默认就用 .resolve()。它更彻底，结果更干净。只有你明确不想跟随软链、不想化简 .. 的时候，才用 .absolute()。

8.3 `.relative_to(other)`：算相对路径

from pathlib import Path

base = Path('/tmp')
file = Path('/tmp/demo/sub/foo.txt')

print(file.relative_to(base))

输出：

demo/sub/foo.txt

这个特别适合用来打日志、做展示，比如打印一个项目里所有文件的相对路径，看着比绝对路径舒服一万倍。

注意 .relative_to(other) 要求当前路径必须是 other 的子孙，否则会抛 ValueError。

8.4 `.expanduser()`：把 `~` 展开成家目录

各位写脚本经常会接一个用户输入的路径，比如配置文件里写着 ~/.config/myapp/conf.toml。这个 ~ 是 shell 里的「家目录」简写，但 Python 不会自动展开它，得自己来：

from pathlib import Path

p = Path('~/Documents/foo.txt')
print(p)
print(p.expanduser())

输出（具体家目录因人而异）：

~/Documents/foo.txt
/Users/two_water/Documents/foo.txt

这个 .expanduser() 相当于以前的 os.path.expanduser(...)，处理用户输入的路径基本必备。

8.5 一个常见组合拳：`expanduser().resolve()`

from pathlib import Path

raw = '~/Desktop/../Desktop/foo.txt'
p = Path(raw).expanduser().resolve()
print(p)

先展 ~，再 resolve 化简和取绝对路径，最后得到一个干净规整的绝对路径。这种写法在「读用户配置」这种场景非常顺手。

九、改个名字：`with_name` / `with_stem` / `with_suffix`

各位有没有这种需求？拿到一个 foo.txt，想生成同目录下的 foo.json、或者把 report_v1.md 改成 report_v2.md。

老写法基本得字符串切片加 os.path.join，写起来贼丑。pathlib 给了三个非常贴心的方法。

9.1 `.with_suffix(new_suffix)` 换后缀

from pathlib import Path

p = Path('/tmp/foo.txt')
print(p.with_suffix('.json'))
print(p.with_suffix(''))

输出：

/tmp/foo.json
/tmp/foo

注意 new_suffix 必须以 . 开头（或者是空字符串，表示去掉后缀）。这个方法非常适合做「同名换格式」的需求，比如批量把 .md 转成 .html：

from pathlib import Path

src = Path('/tmp/two_water_doc.md')
src.write_text('# 标题', encoding='utf-8')

dst = src.with_suffix('.html')
print('源文件：', src)
print('目标：', dst)

输出：

源文件： /tmp/two_water_doc.md
目标： /tmp/two_water_doc.html

9.2 `.with_name(new_name)` 换整个文件名

.with_name(...) 会把最后那一段（包括后缀）整个换掉：

from pathlib import Path

p = Path('/tmp/demo/foo.txt')
print(p.with_name('bar.md'))

输出：

/tmp/demo/bar.md

9.3 `.with_stem(new_stem)` 换主干（保留后缀）

这个是 Python 3.9 才加的，专门用来「保留后缀，只换主干」：

from pathlib import Path

p = Path('/tmp/demo/foo.txt')
print(p.with_stem('bar'))

输出：

/tmp/demo/bar.txt

后缀 .txt 保留不变，主干 foo 换成 bar。

各位想想，要是没有 .with_stem，干这件事得手动 p.with_name(new_stem + p.suffix)，多出一步拼接。Python 标准库的设计者很贴心是不是？

9.4 综合演示

来一个把 report_v1.md 改成 report_v2.json 的例子：

from pathlib import Path

p = Path('/tmp/report_v1.md')
new = p.with_stem('report_v2').with_suffix('.json')
print(new)

输出：

/tmp/report_v2.json

链式调用，一气呵成。

十、跨平台：`PurePath` 系列

各位有没有遇到过这种情况：在 macOS 上写好的脚本，扔到同事 Windows 上跑就崩了？很多时候就栽在路径分隔符上——macOS / Linux 用 /，Windows 用 \。

pathlib 把这件事处理得相当优雅。它有两条继承线：

「具体路径」：Path（自动选）、PosixPath、WindowsPath——能真的去访问文件系统
「纯路径」：PurePath、PurePosixPath、PureWindowsPath——只做字符串层面的路径操作，不碰文件系统

平时各位 99% 的时间都用 Path 就够了。但偶尔，比如你在 Linux 上要解析一段 Windows 风格的路径字符串，就会需要 PureWindowsPath：

from pathlib import PureWindowsPath, PurePosixPath

p = PureWindowsPath(r'C:\Users\two_water\foo.txt')
print(p.name)
print(p.parent)

q = PurePosixPath('/home/two_water/foo.txt')
print(q.name)
print(q.parent)

输出：

foo.txt
C:\Users\two_water
foo.txt
/home/two_water

可以看到，PureWindowsPath 哪怕在 macOS 上跑，也按 Windows 的方式解析路径；PurePosixPath 反之。这两个东西不能调用 .exists()、.read_text() 这种「需要真访问文件系统」的方法，但用来做「路径字符串解析」绰绰有余。

跨平台代码这块就先点到为止，绝大多数童鞋日常用 Path 就够了。

十一、老写法对照表 + 常见踩坑

11.1 一份对照表，方便各位收藏

为了让童鞋们对从老 API 切到 pathlib 心里有数，这里把最常见的迁移做成一份表：

操作	老写法（`os` / `os.path` / `open`）	新写法（`pathlib`）
当前工作目录	`os.getcwd()`	`Path.cwd()`
用户家目录	`os.path.expanduser('~')`	`Path.home()`
路径拼接	`os.path.join(a, b, c)`	`Path(a) / b / c`
文件名	`os.path.basename(p)`	`Path(p).name`
主干（去后缀）	`os.path.splitext(name)[0]`	`Path(p).stem`
扩展名	`os.path.splitext(name)[1]`	`Path(p).suffix`
父目录	`os.path.dirname(p)`	`Path(p).parent`
是否存在	`os.path.exists(p)`	`Path(p).exists()`
是不是文件	`os.path.isfile(p)`	`Path(p).is_file()`
是不是目录	`os.path.isdir(p)`	`Path(p).is_dir()`
绝对路径	`os.path.abspath(p)`	`Path(p).resolve()`
相对路径	`os.path.relpath(p, base)`	`Path(p).relative_to(base)`
创建目录	`os.makedirs(p, exist_ok=True)`	`Path(p).mkdir(parents=True, exist_ok=True)`
删除文件	`os.remove(p)`	`Path(p).unlink()`
删除空目录	`os.rmdir(p)`	`Path(p).rmdir()`
列目录	`os.listdir(p)`	`list(Path(p).iterdir())`
通配匹配	`glob.glob(pattern)`	`Path(...).glob(pattern)`
递归通配	`glob.glob(pattern, recursive=True)`	`Path(...).rglob(pattern)`
读文本	`with open(p) as f: content = f.read()`	`Path(p).read_text(encoding='utf-8')`
写文本	`with open(p, 'w') as f: f.write(s)`	`Path(p).write_text(s, encoding='utf-8')`
文件大小	`os.path.getsize(p)`	`Path(p).stat().st_size`

各位写代码的时候忘了，回来翻一翻就好。

11.2 常见踩坑

坑一：忘了 `Path` 不会自动创建文件

from pathlib import Path

p = Path('/tmp/two_water_not_exist.txt')
print(p)
print(p.exists())

输出：

/tmp/two_water_not_exist.txt
False

是不是发现什么了？光 Path('xxx') 不会在磁盘上真的搞出一个文件来，它只是创建一个「路径对象」。这个对象代表的文件可能存在，也可能不存在。要真把文件搞出来，得 .touch()、.write_text()、.mkdir() 这些「真做事」的方法。

坑二：`Path('foo') == Path('./foo')`？

from pathlib import Path

a = Path('foo')
b = Path('./foo')
print(a == b)
print(a.resolve() == b.resolve())

输出：

False
True

注意了，Path('foo') 和 Path('./foo') 在「字符串层面」是不相等的，但 .resolve() 之后就一样了。如果各位要比较两个路径是否「指向同一个东西」，建议先 .resolve() 再比，或者用更专业的 .samefile(other) 方法（要求两边都真的存在）。

坑三：`.suffix` 对没扩展名的文件返回空字符串

from pathlib import Path

p = Path('/tmp/Makefile')
print(repr(p.suffix))
print(repr(p.stem))

输出：

''
'Makefile'

各位写「按后缀过滤」的代码时要小心：.suffix == '' 对 Makefile、README 这种不带扩展名的文件成立，可别误伤。

坑四：`mkdir` 不带 `exist_ok` 会炸

from pathlib import Path

p = Path('/tmp/two_water_collide')
p.mkdir(exist_ok=True)
p.mkdir(exist_ok=True)
print('两次都没炸：', p.exists())

输出：

两次都没炸： True

如果不加 exist_ok=True，第二次 mkdir 就会抛 FileExistsError。写脚本的时候，几乎所有 mkdir 都建议加上这个参数。

坑五：`relative_to` 不能跨越根

from pathlib import Path

a = Path('/tmp/foo')
b = Path('/var/log')

try:
    print(a.relative_to(b))
except ValueError as e:
    print('炸了：', e)

输出：

炸了： '/tmp/foo' is not in the subpath of '/var/log' OR one path is relative and the other is absolute.

这种情况下没办法用 relative_to，只能借助 os.path.relpath，或者 Python 3.12+ 的 walk_up=True 参数：

from pathlib import Path

a = Path('/tmp/foo')
b = Path('/var/log')

print(a.relative_to(b, walk_up=True))

输出大概是：

../../tmp/foo

walk_up=True 是 3.12 才加的，会允许结果里包含 ..。

十二、小实战：递归统计某目录下所有 `.py` 文件的总行数

讲了这么多，我们用一个小函数把上面学的东西串起来。需求是这样的：

给定一个目录，递归统计这个目录下所有 .py 文件的总行数。

老写法可能会这样：

import os

def count_py_lines_old(root):
    total = 0
    for dirpath, dirnames, filenames in os.walk(root):
        for name in filenames:
            if name.endswith('.py'):
                full = os.path.join(dirpath, name)
                with open(full, 'r', encoding='utf-8') as f:
                    total += sum(1 for _ in f)
    return total

os.walk 嵌两层 for，再 os.path.join，再 with open，活活七八行才把核心逻辑写完。

那 pathlib 写起来是啥样？

from pathlib import Path


def count_py_lines(root: Path) -> int:
    """递归统计 root 目录下所有 .py 文件的总行数。"""
    total = 0
    for py in root.rglob('*.py'):
        if not py.is_file():
            continue
        text = py.read_text(encoding='utf-8', errors='ignore')
        total += text.count('\n') + (0 if text.endswith('\n') or not text else 1)
    return total


if __name__ == '__main__':
    n = count_py_lines(Path.cwd())
    print(f'当前目录下 .py 总行数：{n}')

我们走读一下：

root.rglob('*.py') 递归找出所有 .py 文件，省掉 os.walk 那一坨
py.is_file() 直接挂在对象上，看着就舒服
py.read_text(...) 一行把文件全读出来，不用 with open
数行数用 text.count('\n')，再补一下「最后一行没换行符」的情况

整个核心循环就 5 行，跟老写法对比，是不是清爽了一大截？

那么再问一个问题：如果某些 .py 文件不是 UTF-8 编码会怎样？read_text 会抛 UnicodeDecodeError。我们这里加了 errors='ignore'，遇到不能解码的字节就跳过，保证统计不中断。这种小技巧在写工具脚本的时候特别有用。

各位善于思考的童鞋可以再优化一下：

排除 .venv、__pycache__ 这种目录
区分「空行」和「非空行」分别统计
加个 --ext 参数，让它支持任意扩展名

这就当作课后作业，自己玩起来吧。

十三、彩蛋：和老 API 互通

各位看到这里可能会担心：项目里有些「祖传代码」用的是字符串路径，或者用了某个第三方库，它的接口要求传字符串而不是 Path，怎么办？

其实根本不用担心。Path 跟字符串之间互相转换非常顺。

13.1 `Path` → 字符串：直接 `str()`

from pathlib import Path

p = Path('/tmp/foo.txt')
s = str(p)
print(s)
print(type(s))

输出：

/tmp/foo.txt
<class 'str'>

str(p) 就把 Path 对象转回了纯字符串。任何接受字符串路径的老 API，都可以这么传。

13.2 字符串 → `Path`：`Path(s)`

反过来更简单，前面我们已经用过无数次了：

from pathlib import Path

s = '/tmp/foo.txt'
p = Path(s)
print(p)

13.3 `os.PathLike`：标准库的兼容协议

从 Python 3.6 开始，os.PathLike 这个协议让标准库里几乎所有接受路径的函数（包括 open、os.listdir、shutil.copy 等等）都能直接吃 Path 对象。也就是说：

from pathlib import Path

p = Path('/tmp/two_water_compat.txt')
p.write_text('hi', encoding='utf-8')

with open(p, 'r', encoding='utf-8') as f:
    print(f.read())

输出：

hi

是不是发现什么了？open 第一个参数我们直接传了 Path 对象，没有先 str()，照样能跑。这就是 os.PathLike 协议的功劳。

所以各位放心用 pathlib，跟标准库里的「老朋友」基本无缝兼容。

十四、小结

讲了这么多，最后总结一下 pathlib 的核心要点：

第一，路径在 pathlib 里不再是字符串，而是「对象」。它自己知道自己叫什么、在哪、是不是文件、能不能读。这种「对象自治」的设计，让代码读起来更接近自然语言。

第二，/ 操作符把路径拼接做成了一种「视觉上和路径一致」的语法。Path('/tmp') / 'foo' / 'bar.txt' 这种写法，比 os.path.join 那一长串好太多了。

第三，pathlib 把跨多个老模块的功能（os.path、os、open、shutil 的一部分）整合到了一个对象上。p.exists()、p.read_text()、p.mkdir(parents=True, exist_ok=True)，全部从 p 这个对象出发，不用再到处 import。

各位童鞋以后写新代码，就别再 os.path.join 一条道走到黑啦，直接 from pathlib import Path 是真香。

FilesExpand file tree

1.md

Latest commit

History

1.md

File metadata and controls

一、第一个 Path

二、用 / 来拼接路径

三、常用属性，一锅端

3.1 .name：完整文件名（带后缀）

3.2 .stem：去掉后缀的「主干」

3.3 .suffix：扩展名（带点）

3.4 .parent：父目录

3.5 .parents：所有祖先目录

3.6 .anchor：锚点

3.7 综合演示

四、判断和信息

4.1 拿到详细信息：.stat()

五、遍历目录

5.1 .iterdir()：只列当前目录下一层

5.2 .glob(pattern)：匹配模式（仅当前目录）

5.3 .rglob(pattern)：递归匹配

5.4 实战：找出某目录下所有 Python 文件

六、读写文件

6.1 .read_text() 一行读完

6.2 .write_text() 一行写完

6.3 二进制读写：.read_bytes() 和 .write_bytes()

6.4 什么时候还需要 open()？

七、创建和删除

7.1 .mkdir() 创建目录

7.2 .touch() 创建空文件

7.3 .unlink() 删除文件

7.4 .rmdir() 删除空目录