深入解析 Python 遍历文件夹下所有文件的利器98

在日常软件开发或数据处理过程中，我们经常需要遍历某个文件夹下的所有文件。Python 作为一门强大的编程语言，提供了多种方法来实现这一功能。本文将全面介绍如何使用 Python 遍历文件夹下所有文件，从基础方法到高级选项，内容由浅入深，循序渐进。

基础方法

()

() 函数是最简单的遍历文件夹的方法之一。它返回一个包含文件夹中所有文件和目录名称的列表。对于需要获取文件路径的简单场景，() 可以满足基本需求。import os
# 获取当前工作目录下的所有文件和目录
files = (".")

()

() 函数提供了一种更强大的遍历方式。它返回一个生成器，逐级生成文件夹中所有子目录和文件的元组。此方法特别适用于迭代目录树。import os
# 遍历当前工作目录及其子目录
for root, directories, files in ("."):
# 处理根目录、子目录和文件
pass

高级选项

()

() 函数使用通配符模式匹配遍历文件。此方法在需要查找符合特定文件模式的文件时非常有用。import glob
# 查找当前工作目录中所有以 ".txt" 结尾的文件
txt_files = ("*.txt")

()

Pathlib 是 Python 3.4 引入的现代文件系统交互库。() 方法提供了一种简洁的遍历文件夹内容的方式，返回一个生成器，逐个生成 Path 对象。from pathlib import Path
# 获取当前工作目录的 Path 对象
path = Path(".")
# 遍历文件夹中的所有文件和目录
for item in ():
# 处理 Path 对象
pass

shutil.disk_usage()

shutil.disk_usage() 函数可用于获取文件夹及其子目录的磁盘使用情况信息，包括总大小、已用空间和可用空间。此方法对于管理存储空间非常有用。import shutil
# 获取当前工作目录及其子目录的磁盘使用情况
du = shutil.disk_usage(".")

拓展技巧

过滤文件

使用 ()、() 或 () 等方法遍历文件时，可以通过传入过滤器函数来过滤文件。这可以基于文件大小、修改时间或其他 criteria。import os
# 过滤出当前工作目录中大于 1MB 的文件
large_files = [f for f in (".") if (f) > 1000000]

递归遍历

要递归遍历文件夹，只需使用嵌套循环或 () 函数。嵌套循环涉及迭代每个子目录，然后对每个子目录重复遍历过程。import os
# 递归遍历当前工作目录及其子目录
def recursive_traversal(path):
for item in (path):
full_path = (path, item)
if (full_path):
recursive_traversal(full_path)
else:
# 处理文件
pass

多线程遍历

对于大型目录树，可以使用多线程或多进程来并行遍历文件。这可以显著提高遍历速度，尤其是在处理大量文件时。import os
import threading
# 创建线程池
pool = ThreadPool(4)
# 将遍历任务分配给线程池
for root, directories, files in ("."):
(process_files, files)
# 等待所有任务完成
()
()

Python 为遍历文件夹下所有文件提供了丰富的选项，从基础方法到高级选项。通过理解每种方法的优点和局限性，您可以根据具体场景选择最合适的遍历策略。本文详细介绍了各种遍历方法，涵盖了过滤文件、递归遍历和多线程遍历等拓展技巧，帮助您充分利用 Python 的文件遍历功能。

2024-10-17

上一篇：Python 中实现向上取整的 5 种方法

下一篇：Python 中执行 EXE 文件的综合指南