跳到主要内容

S3 Parquet 导入

前置条件

要从 S3 加载 Parquet 文件,需要 httpfs 扩展。可通过 INSTALL SQL 命令安装。该步骤仅需执行一次。

INSTALL httpfs;

要加载 httpfs 扩展,请执行 LOAD SQL 命令:

LOAD httpfs;

凭据与配置

加载 httpfs 扩展后,请配置读取数据所需凭据与 S3 region:

CREATE SECRET (
TYPE s3,
KEY_ID '⟨AKIAIOSFODNN7EXAMPLE⟩',
SECRET '⟨wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY⟩',
REGION '⟨us-east-1⟩'
);

提示:若出现 IO Error(Connection error for HTTP HEAD),请显式配置 endpoint:ENDPOINT 's3.⟨your-region⟩.amazonaws.com'

或者可使用 aws 扩展 自动获取凭据:

CREATE SECRET (
TYPE s3,
PROVIDER credential_chain
);

查询

httpfs 扩展就绪且 S3 配置正确后,可通过以下命令从 S3 读取 Parquet 文件:

SELECT * FROM read_parquet('s3://⟨bucket⟩/⟨file⟩');

Google Cloud Storage (GCS) 与 Cloudflare R2

Goose 也可通过 S3 API 处理 Google Cloud Storage (GCS)Cloudflare R2。 详情请参阅对应指南。