节点文献

一种基于Hadoop的多表链接策略

免费订阅

【作者】 徐剑陈群王卓李战怀

【Author】 XU Jian;CHEN Qun;WANG Zhuo;LI Zhan-huai;School of Computer Science and Technology,Northwestern Polytechnical University;

【机构】 西北工业大学计算机学院

【摘要】 Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率。为解决该问题,提出一种"替换-查询"方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价。运用缓冲池、二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度。最后在TPC-H数据集上,设计了与原Hadoop的对比实验,结果表明该方法可减少35.5%的存储空间,提高12.9%的运行效率。

【关键词】 多表链接替换-查询索引缓冲池二次排序
【基金】 国家自然科学基金重点项目(61033007);国家“973”重点基础发展规划基金资助项目(2012CB316203)
【所属期刊栏目】 计算机应用技术_计算机软/硬件与数据总线 (2014年06期)
  • 【DOI】10.16652/j.issn.1004-373x.2014.06.039
  • 【分类号】TP391.3
  • 【被引频次】2
  • 【下载频次】55
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: