存储模块概述
存储(Store) 模块为持久化存储提供统一的访问与管理能力,涵盖键值存储、结构化数据格式及大规模存储后端三大核心方向。
本目录旨在帮助开发人员与运维人员明确可用的存储方案、其预期用例及生产环境中的应用方式。通过阅读相关文档,您将获得针对大规模数据集、分析型工作负载或可运维键值存储的选型指导。
目录结构与用途
| 类别 | 包含内容 | 用途/解决的问题 |
|---|---|---|
| 键值存储(KV) | LevelDB、LMDB、RocksDB | 持久化键值存储方案,支持结构化数据的高吞吐量存储,提供备份、快照及键设计相关的运维指导。 |
| 数据格式 | Parquet、Arrow、Avro、HDF5、NPY、OCR、Substrait | 适用于结构化与半结构化数据的格式标准,适用于批处理、分析流水线或特定领域的数据存储场景。 |
| 云存储与分布式后端 | AWS、Azure、GCS、HDFS | 提供与大规模存储后端的集成指导,重点关注运维层面的集成实践,而非对特定服务进行优劣推荐。 |
阅读本目录可解决的问题
1. 了解存储方案选择
- 不同数据规模与运维需求下,哪些键值存储更为适用?
- 批处理分析与内存分析分别对应哪些数据格式?
- 分布式存储后端的核心特性及集成要点是什么?
2. 提升运维认知
- 键值存储中备份与快照的基础实施策略;
- 实现高效数据访问的键设计模式指导;
- 单文件存储与多文件存储的权衡取舍逻辑。
3. 为大规模工作负载做准备
- 掌握生产系统存储方案决策所需的核心知识;
- 帮助运维人员预判性能、吞吐量及可靠性相关风险;
- 助力开发人员设计具备可维护性存储架构的应用系统。
结语
本目录整合了面向开发人员与运维人员的核心存储知识体系。它不规定具体实现方案,而是聚焦于存储的组织逻辑、各类存储的存在价值及其解决的核心问题。用户可进一步查阅各个子模块,获取更深入的技术指导与运维实践建议。