Python 文件读写：readlines() 函数详解及高效读写技巧255

Python 提供了丰富的文件读写功能，其中readlines() 函数是读取文件内容的常用方法之一。本文将深入探讨readlines() 函数的用法、优缺点，并结合实际案例，讲解如何高效地进行 Python 文件读写操作，以及如何避免常见的错误。

1. readlines() 函数的基本用法

readlines() 函数从文件中读取所有行，并将其作为字符串列表返回。每行（包括换行符）作为一个列表元素。如果文件很大，readlines() 会一次性将所有内容加载到内存中，这可能会导致内存溢出。因此，对于大型文件，不建议使用 readlines()。

以下是一个简单的例子：```python
try:
with open("", "r") as file:
lines = ()
for line in lines:
print(line, end="") # end="" prevents extra newline
except FileNotFoundError:
print("File not found.")
```

这段代码打开名为 "" 的文件，读取所有行到 `lines` 列表中，然后逐行打印。with open(...) as file: 语句确保文件在使用完毕后自动关闭，即使发生异常也能保证资源的正确释放。end="" 用于防止每行打印后额外添加换行符。

2. readlines() 函数的局限性和替代方法

readlines() 函数的主要缺点在于它将整个文件加载到内存中。对于大型文件，这会导致内存消耗过大，甚至程序崩溃。为了解决这个问题，可以使用以下替代方法：

a. 逐行读取： 这是处理大型文件最有效的方法。通过循环迭代文件对象，每次只读取一行，避免内存溢出。```python
try:
with open("", "r") as file:
for line in file:
# process each line individually
print(line, end="")
except FileNotFoundError:
print("File not found.")
```

b. 使用迭代器： 可以将文件对象视为迭代器，直接循环遍历每行。```python
try:
with open("", "r") as file:
for line in iter(, ''): # iterates until readline returns empty string
# process each line
print(line, end="")
except FileNotFoundError:
print("File not found.")
```

3. 处理文件编码

在读取文件时，需要指定正确的编码方式，否则可能会出现乱码。例如，读取 UTF-8 编码的文件：```python
try:
with open("", "r", encoding="utf-8") as file:
lines = ()
# ... process lines ...
except FileNotFoundError:
print("File not found.")
except UnicodeDecodeError:
print("Error decoding file. Check encoding.")
```

如果没有指定编码，Python 会使用系统的默认编码，这可能会导致问题，尤其是在处理不同编码的文件时。UnicodeDecodeError 异常处理可以捕获编码错误。

4. 写入文件

readlines() 主要用于读取文件，但 Python 也提供了方便的写入文件的方法。可以使用 write() 方法写入单个字符串，或者使用 writelines() 方法写入一个字符串列表。```python
lines_to_write = ["This is line 1.", "This is line 2.", "This is line 3."]
try:
with open("", "w", encoding="utf-8") as file:
(lines_to_write)
except IOError as e:
print(f"An error occurred while writing to the file: {e}")
```

"w" 模式会覆盖现有文件，如果要追加内容，可以使用 "a" 模式。

5. 高效处理大型文件

对于非常大的文件，可以考虑使用更高级的技术，例如：

a. 内存映射文件 (mmap)： 允许直接操作磁盘上的文件，无需将整个文件加载到内存中。

b. 生成器： 可以编写生成器函数，逐行处理文件，避免内存溢出。

c. 分块读取： 使用 (chunk_size) 以指定大小的块读取文件，减少内存占用。

6. 错误处理

在进行文件读写操作时，始终要包含错误处理，例如 FileNotFoundError, IOError, UnicodeDecodeError 等，以防止程序崩溃。

结论

readlines() 函数适用于读取小型文件，但对于大型文件，建议使用逐行读取或其他更有效的方法，以避免内存溢出。选择合适的文件读写方法取决于文件的规模和具体的应用场景。记住始终处理可能的异常，并选择正确的文件编码，以确保程序的稳定性和可靠性。

2025-05-21

上一篇：用Python绘制爱心：多种方法及代码详解