处理超大数据库
本页提供处理超大 Goose 数据库文件的相关信息。 虽然大多数 Goose 数据库远低于 1 TB,但有 1% 的受访者使用了 2 TB 或更大 Goose 文件(约对应 10 TB 的 CSV 文件)。
Goose 的原生数据库格式在实践中支持超大数据库文件,但在处理这类文件时仍有几点需要注意。
-
与块存储相比,对象存储的单文件大小上限更低。例如 AWS S3 单文件上限为 5 TB。
-
Goose 数据库的 checkpoint 可能较慢。例如在 TPC-H SF1000 数据库中向表追加少量行后执行 checkpoint,大约需要 5 秒。
-
在块存储上处理大文件时,文件系统对性能影响显著。在 Linux 上,Goose 在处理大文件时使用 XFS 表现最佳。
若需存储海量数据,可考虑使用 DuckLake lakehouse format。