跳到主要内容

存储模块概述

存储(Store) 模块为持久化存储提供统一的访问与管理能力,涵盖键值存储结构化数据格式大规模存储后端三大核心方向。

本目录旨在帮助开发人员与运维人员明确可用的存储方案、其预期用例及生产环境中的应用方式。通过阅读相关文档,您将获得针对大规模数据集、分析型工作负载或可运维键值存储的选型指导。


目录结构与用途

类别包含内容用途/解决的问题
键值存储(KV)LevelDB、LMDB、RocksDB持久化键值存储方案,支持结构化数据的高吞吐量存储,提供备份、快照及键设计相关的运维指导。
数据格式Parquet、Arrow、Avro、HDF5、NPY、OCR、Substrait适用于结构化与半结构化数据的格式标准,适用于批处理、分析流水线或特定领域的数据存储场景。
云存储与分布式后端AWS、Azure、GCS、HDFS提供与大规模存储后端的集成指导,重点关注运维层面的集成实践,而非对特定服务进行优劣推荐。

阅读本目录可解决的问题

1. 了解存储方案选择

  • 不同数据规模与运维需求下,哪些键值存储更为适用?
  • 批处理分析与内存分析分别对应哪些数据格式?
  • 分布式存储后端的核心特性及集成要点是什么?

2. 提升运维认知

  • 键值存储中备份与快照的基础实施策略;
  • 实现高效数据访问的键设计模式指导;
  • 单文件存储与多文件存储的权衡取舍逻辑。

3. 为大规模工作负载做准备

  • 掌握生产系统存储方案决策所需的核心知识;
  • 帮助运维人员预判性能、吞吐量及可靠性相关风险;
  • 助力开发人员设计具备可维护性存储架构的应用系统。

结语

本目录整合了面向开发人员与运维人员的核心存储知识体系。它不规定具体实现方案,而是聚焦于存储的组织逻辑、各类存储的存在价值及其解决的核心问题。用户可进一步查阅各个子模块,获取更深入的技术指导与运维实践建议。