Apache Arrow 中文文档

前言

本文档是我为了记录Apache Arrow学习过程写下的文档，基于9.0.0的官方文档翻译和验证而成。因此可能出现不全、不对、不及时的情况，个人精力能力有限，请谅解。

代码仓库

https://github.com/ZhengqiaoWang/ArrowDocsZhCN

个人想法

ApacheArrow我个人认为是一个比较适合分析处理大量数据的框架，它不像numpy一样需要将数据先加载到内存中再进行处理计算，而是在数据读取时就根据需要将数据异步读取，这样的确极大的减少了内存占用。不可否认，在一些简单的计算场景下，ApacheArrow因为采取了类似yield的读取机制（Generator），其节省的内存拷贝时间能极大的缩短数据加载计算的整个流程，但这并不意味着其纯粹的内存计算与采用类似内存架构的pandas计算速度更快，这一点还是值得商榷的。

不可否认的是，如果你需要分析手中的大量数据，同时苦恼于内存远不及数据量时，ApacheArrow是目前我认为最优的选择，他可以节省更多精力更多时间，让你更快速的处理大批量数据，并分析出想要的结果。

如何贡献

可以提交Issue或Fork+PR。

下篇C++