S3 Parquet 导入
前置条件
要从 S3 加载 Parquet 文件,需要 httpfs 扩展。可通过 INSTALL SQL 命令安装。该步骤仅需执行一次。
INSTALL httpfs;
要加载 httpfs 扩展,请执行 LOAD SQL 命令:
LOAD httpfs;
凭据与配置
加载 httpfs 扩展后,请配置读取数据所需凭据与 S3 region:
CREATE SECRET (
TYPE s3,
KEY_ID '⟨AKIAIOSFODNN7EXAMPLE⟩',
SECRET '⟨wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY⟩',
REGION '⟨us-east-1⟩'
);
提示:若出现 IO Error(
Connection error for HTTP HEAD),请显式配置 endpoint:ENDPOINT 's3.⟨your-region⟩.amazonaws.com'。
或者可使用 aws 扩展 自动获取凭据:
CREATE SECRET (
TYPE s3,
PROVIDER credential_chain
);
查询
当 httpfs 扩展就绪且 S3 配置正确后,可通过以下命令从 S3 读取 Parquet 文件:
SELECT * FROM read_parquet('s3://⟨bucket⟩/⟨file⟩');
Google Cloud Storage (GCS) 与 Cloudflare R2
Goose 也可通过 S3 API 处理 Google Cloud Storage (GCS) 与 Cloudflare R2。 详情请参阅对应指南。