跳到主要内容

处理超大数据库

本页提供处理超大 Goose 数据库文件的相关信息。 虽然大多数 Goose 数据库远低于 1 TB,但有 1% 的受访者使用了 2 TB 或更大 Goose 文件(约对应 10 TB 的 CSV 文件)。

Goose 的原生数据库格式在实践中支持超大数据库文件,但在处理这类文件时仍有几点需要注意。

  1. 与块存储相比,对象存储的单文件大小上限更低。例如 AWS S3 单文件上限为 5 TB

  2. Goose 数据库的 checkpoint 可能较慢。例如在 TPC-H SF1000 数据库中向表追加少量行后执行 checkpoint,大约需要 5 秒。

  3. 在块存储上处理大文件时,文件系统对性能影响显著。在 Linux 上,Goose 在处理大文件时使用 XFS 表现最佳。

若需存储海量数据,可考虑使用 DuckLake lakehouse format