计算机软硬件网络技术论文提纲

2022-09-05

论文题目:卷积神经网络的模型压缩与硬件加速研究

摘要:近年来,深度学习的进步促进了神经网络的迅速发展。其中特别是卷积神经网络由于其出色的性能在计算机视觉和自然语言处理等多种领域中都获得了成功,然而其优异的性能依赖于大量的参数量和计算量。随着神经网络应用领域的不断深入,单纯追求性能的网络已不再适用于综合考虑资源受限、低能耗和实时性等优化的场景。因此在设计和部署神经网络时,如何减少参数量和计算量,满足推理实时性要求,并仍然保持较高的性能,是神经网络研究中亟待解决的问题。前人工作主要从四个方向来进行优化:1)设计高效网络结构;2)通过剪枝、量化等技术对网络进行压缩;3)利用输入相关的动态冗余通过动态量化、剪枝等方式减少计算量;4)设计专用硬件加速器。本文对上述方向的国内外研究现状展开了调研,并观察到一些不足之处:首先,不同的压缩技术从不同角度对网络进行轻量化,但缺少通过有效结合多种压缩技术并综合多角度来深度精简网络的优化方法。其次,前人往往单独考虑网络或硬件加速的设计,缺少软硬件的协同优化,降低了实际的硬件推理效率。此外,缺少综合考虑网络结构和压缩算法的优化方法,限制了高效网络结构的压缩性能。为此,本文着眼于卷积神经网络的模型压缩和硬件加速问题,探索如何设计高效网络结构并且合理结合压缩技术,研究从算法和结构的角度综合优化通道剪枝技术,研究如何在考虑实际硬件运算特征的同时有效融合多种压缩技术,以及从软硬件协同设计的角度探索设计合理的动态量化软硬件架构并实现真实的加速效果。本文的研究内容主要包括以下三个方面:·本文以图像超分辨率任务为例,提出一种基于自适应混合结构的轻量级超分辨率网络,对上采样和特征提取模块进行了优化,并结合剪枝技术对网络进一步压缩。首先针对复杂的上采样操作,移除了参数量和计算量较大的上采样卷积层,并用不同层次特征的渐进式合并来代替,以降低网络复杂度;其次针对特征提取模块网络结构效率不高的问题,设计了基于多种高效结构的混合基本模块,并基于此模块构建了轻量级网络;最后针对人为设计无法保证资源约束下网络结构合理性的问题,应用通道剪枝技术对各高效结构进行比重选择,并对残差块采用了细粒度的剪枝策略,得到超轻量级超分辨率网络。实验结果证明本文提出的网络在性能和压缩率上实现了很好的权衡,可将MSRResNet压缩4.3倍参数量而没有明显的性能损失;·本文提出一种加速感知的细粒度通道剪枝框架AFCP,同时从算法和结构层面对通道剪枝进行了优化,并且考虑硬件运算特征反馈到剪枝流程中,提高了剪枝的性能。在算法层面,针对目前的通道剪枝算法往往采用单一的评判准则从而容易忽略掉实际较为重要的通道的问题,提出同时考虑了零值和相似剪枝两种准则,并利用可训练参数的门控残差学习到每个通道合适的准则和剪枝情况,提高了剪枝的精确度。在结构层面,针对通道剪枝力度较粗导致压缩性能较差的问题,采用了细粒度的通道剪枝方法,对原卷积层使用低秩分解以生成更多的通道选择,由于针对高效的残差网络缺少合理的剪枝策略,因此采用了按组为单位的细粒度剪枝策略,在增加可剪枝通道选择空间的同时保留了结构化的网络结构,进一步提高了剪枝的性能。此外,针对通道剪枝算法没有考虑硬件特征从而降低了推理效率的问题,利用硬件预测器将实际硬件的运算特征反馈到剪枝流程中,有效缓解了这一问题。实验结果也证实AFCP在网络性能、压缩率和加速比之间实现了很好的权衡,如在ImageNet数据集上将ResNet-50的计算量压缩4倍而不造成性能损失;·本文提出一种基于结构型动态精度跳跃的软硬件架构SPS,在静态量化的DNN模型上继续探索动态精度冗余,并且在硬件加速器上实现真实的加速效果。由于动态冗余的分布具有不规则的特点,若动态压缩没有结合硬件设计进行考虑,会导致实际的加速效果与理论计算量的减少存在较大的差距,针对该问题,在算法层面,本文结合硬件运算特征提出了结构化的动态块,以结构化稀疏度的方式探索动态冗余度,并提出了资源感知的动态量化学习方法,通过引入稀疏正则项使网络在满足给定稀疏度要求的前提下学习到合理的参数分布。在硬件层面,设计了相应的动态量化硬件加速器支持动态模型的推理加速,通过在传统位串行运算架构的基础上引入低成本的硬件模块,并设计合理的调度和数据访问策略,实现与理论相符的加速效果。实验结果也证明SPS在网络性能和加速比上实现了很好的权衡,在不同的数据集和网络上可最高实现1.5倍的加速以及1.4倍的能效提升。

关键词:卷积神经网络;轻量化;剪枝;量化;软硬件协同设计

学科专业:电路与系统

致谢

摘要

Abstract

缩写、符号清单、术语表

1 绪论

1.1 研究背景及意义

1.1.1 卷积神经网络的结构设计问题

1.1.2 卷积神经网络的静态压缩问题

1.1.3 卷积神经网络的动态加速问题

1.1.4 卷积神经网络的硬件加速问题

1.2 本文主要研究内容及创新点

1.3 本文主要章节安排

2 国内外研究现状

2.1 超分辨率网络设计的研究

2.2 卷积网络的剪枝研究

2.2.1 剪枝的算法

2.2.2 剪枝的结构

2.3 卷积网络的量化研究

2.4 网络的低秩分解研究

2.5 卷积网络的动态加速研究

2.6 卷积网络的硬件加速器研究

3 基于自适应混合结构的轻量级超分辨率网络研究

3.1 概述

3.2 AHCSRN设计方法

3.2.1 轻量级超分辨率网络设计流程

3.2.2 基线模型分析

3.2.3 轻量级网络HCSRN的架构

3.2.4 上采样模块

3.2.5 混合基本块

3.2.6 残差网络的细粒度通道剪枝

3.3 实验设置和评价标准

3.3.1 数据集和评价标准

3.3.2 实现细节

3.4 实验结果和分析

3.4.1 与现有工作的定量比较

3.4.2 视觉效果比较

3.4.3 剪枝效果分析

3.4.4 上采样模块效果分析

3.4.5 剪枝效果分析

3.5 本章小结

4 加速感知的细粒度通道剪枝

4.1 概述

4.2 研究动机描述

4.2.1 细粒度的剪枝评判标准

4.2.2 残差网络的细粒度剪枝结构

4.2.3 理论计算量与实际加速

4.3 算法机制

4.3.1 基于残差门控学习细粒度的剪枝准则

4.3.2 残差网络的细粒度通道剪枝策略

4.3.3 基于低秩分解的细粒度剪枝结构

4.3.4 加速感知的通道剪枝

4.3.5 实现细节

4.4 实验设置

4.4.1 实验平台

4.4.2 基准数据集

4.4.3 实验网络模型

4.4.4 训练参数设置

4.5 实验结果和分析

4.5.1 总体压缩性能比较

4.5.2 可学剪枝准则的有效性

4.5.3 残差网络细粒度通道剪枝策略的有效性

4.5.4 基于低秩分解的细粒度剪枝的有效性

4.5.5 硬件感知的通道剪枝的有效性

4.5.6 超参数变量的影响

4.6 本章小结

5 基于结构化动态量化的卷积网络加速研究

5.1 概述

5.2 研究动机描述

5.3 算法机制

5.3.1 结构化的动态块

5.3.2 动态精度选择

5.3.3 资源感知的动态量化训练

5.4 SPS的硬件架构

5.4.1 整体架构概述

5.4.2 数据流

5.4.3 预测控制器

5.4.4 执行阶段分析

5.4.5 动态量化精度的存储访问

5.5 算法实验评估

5.5.1 实验设置

5.5.2 实验结果比较和分析

5.5.3 动态决策行为分析

5.5.4 超参数变量的影响

5.6 硬件实验评估

5.6.1 实验设置和方法

5.6.2 加速效果

5.6.3 能效分析

5.6.4 设计空间探索

5.6.5 面积成本

5.7 本章小结

6 总结与展望

6.1 工作总结

6.2 未来展望

参考文献

附录B 基金资助

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:数学教学农村教学论文提纲下一篇:测量工程论文提纲