- 最新
- 投票最多
- 评论最多
【以下的回答经过翻译处理】 关于Spectrum Caching: 根据你所在的地域和维护轨迹,你可能已经有了正在部署的Spectrum Caching功能,或者很快会得到。在最近的发布公告(Amazon Redshift Maintenance(2019年2月20日至3月21日)),你将找到一个特性的描述:
• Redshift Spectrum:Spectrum Request Accelerator已经自动且透明地启用,大大提高了对Amazon S3中数据的查询性能。
这就是Spectrum Caching功能,其中Spectrum子查询结果会被缓存在S3中。我曾在re:Invent 2018上介绍过这个功能,并展示了预览中这个功能所带来的性能提升。你可以在https://www.slideshare.net/AmazonWebServices/extending-analytics-beyond-the-data-warehouse-ft-warner-bros-analytics-ant301-aws-reinvent-2018?qid=f102d8de-b377-4e5e-b6e1-e0d61fbc0316&v=&b=&from_search=1中看到。
关于S3 Parquet与ORC外部存储格式:
就存储格式特定的I/O避免和数据减少而言,你会发现Parquet和ORC基本相同,除了只有一些特定的低级别特性,仅有一些SerDe实现采用。我使用过大多数大数据工具,我可以说,Parquet和ORC存储格式之间的区别仅在于与格式搭配的工具。这真的是Cloudera与Hortonworks阵营的产物,随着它们最近的合并,很快就会像春天融雪一样消失。如果你回顾一下Spectrum的发布历史,你会发现对于Redshift来说,Parquet是Spectrum最初采用的存储格式