节点文献

基于Spark的LIBSVM参数优选并行化算法

免费订阅

【作者】 李坤刘鹏吕雅洁张国鹏黄宜华

【Author】 Li Kun;Liu Peng;Lv Yajie;Zhang Guopeng;Huang Yihua;School of Information and Electrical Engineering,China University of Mining and Technology;Internet of Things Perception Mine Research Centre,China University of Mining and Technology;National and Local Joint Engineering Laboratory of Internet Application Technology on Mine;PASA Big-data Laboratory,Department of Computer Science,Nanjing University;

【机构】 中国矿业大学信息与电气工程学院中国矿业大学物联网(感知矿山)研究中心矿山互联网应用技术国家地方联合工程实验室南京大学计算机系PASA大数据实验室

【摘要】 利用Spark集群设计LIBSVM参数优选的并行化实现.LIBSVM是一款广泛使用的SVM软件包,广泛应用于模型搭建、样本训练和结果预测等方面.在用LIBSVM训练数据集时,参数的选择对训练结果影响显著,其中以参数C和g最为重要.LIBSVM软件包中采用网格搜索算法对C、g参数组合进行寻优,尽管该算法在单机上实现了并行化,但当数据量达到一定程度时,仍需要花费大量的时间.基于Spark并行计算架构,进行了LIBSVM的C、g参数网格优选并行算法的设计与实现.实验结果表明,提出的并行粗粒度网格搜索C、g参数优选算法比传统算法速度提升了近7倍,而且这一提升将随着集群规模的扩大而进一步加大.另一方面,在粗粒度网格搜索的基础上,进而提出的细粒度并行网格搜索算法又进一步提升了C、g参数组合的优选结果.

【关键词】 LIBSVM参数优选网格搜索并行化Spark
【基金】 国家高技术研究发展计划(863计划)(2013AA06A411);国家自然科学基金(61471361);中央高校基本科研业务费(2011QNB26)
  • 【DOI】10.13232/j.cnki.jnju.2016.02.016
  • 【分类号】TP18
  • 【被引频次】6
  • 【下载频次】318
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: