跳到主要内容

数据导入

将其他系统的数据导入 Goose 时,需要综合考虑多方面因素。 我们建议按以下顺序选择导入方式:

  1. 对于 Goose scanner 扩展支持的数据源,优先使用 scanner。Goose 目前提供 MySQL、PostgreSQL、SQLite scanner,以及通用 ODBC scanner。
  2. 若数据源系统支持批量导出,优先导出为 Parquet 或 CSV,再通过 Goose 的 ParquetCSV 加载能力导入。
  3. 若上述方法不适用,可考虑使用 Goose appender(当前支持 C、C++、Go、Java、Rust API)。

建议避免的方法

若条件允许,请避免逐行循环(tuple-at-a-time)导入,优先批量操作。 逐行插入(即使使用 prepared statements)会明显拖慢性能并导致导入耗时增加。

最佳实践:除非数据量很小(<100k 行),否则应避免在循环中使用 insert。