投影教学初中物理论文提纲

2022-09-23

论文题目:A Hybird Framework for Physics Problems Recognition

摘要:深度学习不断发展,因为其比传统算法有很多优势,所以许多传统算法被深度学习算法取代,使得工作效率得到进一步提高。但还有很多实际的应用存在各种各样的的问题,需要被我们解决。OCR中的一些问题就需要我们去研究解决,本课题是对不同的文本检测与识别技术进行研究,OCR技术属于模式识别范畴,在版面分析、字符切分以及提取等各个方面都有深入的研究,现如今,一个字符识别准确率已经比较不错。初中物理试题中多包含汉字、数字、字母、罗马符号(例如Ω,ρ,η等)多种模态数据结合的文本,传统OCR对这种多模态数据结合的文本的识别过程繁琐且精确度差,还有就是现有的sequence 2 sequence识别方法对长序列识别效果不理想。由于传统的OCR算法以及现有的sequence2 sequence识别方法都存在一些问题,所以想到如果在传统算法的基础上再对深度学习算法进行利用,即构成传统算法+深度学习算法的模式,识别准确率将会有明显提升,这也是本篇论文将要展示的。题目识别,旨在从图像中自动读入题目,能够支撑机器解答、自动批改、自动搜题等多项智能教育应用,具有重要的应用价值。本文主要研究中学物理试题的自动识别。中学物理试题题干中含有文字、图形等多模态数据,而文字中又包括中文、数字、英文字母、希腊字母(物理单位)等。不同模态的数据形态结构各异,难以提出统一的方法对其进行读入。基于上述分析,结合深度学习和传统OCR技术的优势,本问针对中学物理题目识别任务提出了一个多阶段的解决方法。使用改进算法来提升物理试题识别的正确率,最终我们可以提高学校工作人员的效率以及调动学生的学习积极性。教师对于各种纸质试题的保存和管理非常麻烦,而且将纸质试题进行长时间地保存,会发生损坏,影响到教师正常的教学安排。将纸质试题电子化可以解决上述的问题。学生在复习功课,做练习题时,如果发现有不会的题目可以通过拍照等方式把题目电子化,可以放到便携式移动设备里面保存,可以随时翻阅自己疑惑的题目和自己做错的题目,相对于纸质试题更加的方便。1.研究目标与本文贡献1.1研究目标初中物理试题中多由汉字、数字、字母、罗马符号(例如Ω,p,n等)组成。我们要解决物理试题的识别这个问题,可以把物理试题识别可以视作是基于图像的二分类和多分类问题(由于物理试题中含有较多的字符是汉字,所以先进行汉字和非汉字的二分类,在二分类结束以后,可以在二分类的结果中对分类得到的非汉字字符进行多分类操作,最终可以把各个字符进行分类得到结果)。与单体识别不同的是,由于一道试题包含有多个字符,对字符进行一系列操作使其变为单个字符是非常有必要的步骤,然后在对其进行识别。这些年来,GPU发展迅速,深度学习模型在计算机图像识别领域大放异彩,其模型几乎涉及到人类生活的各个领域。我们先用传统的OCR算法对图像进行预处理操作(灰度变换,二值化操作,平滑去噪,图像腐蚀以及膨胀),然后利用神经网络进行分类操作,将传统算法和优秀的深度学习模型结合。本论文使用传统OCR算法+深度学习算法的模式。1.2本文贡献该论文贡献如下:1.本论文提出传统算法与深度学习算法相结合一次性识别物理试题的思想,并提出了这种思想对应的识别框架,此种混合方法相较于传统算法既使得识别的准确率提高,又可以为开发识别整个物理试题提供方法。2.对于字符的识别,大多只是进行单一类型文本的识别,例如汉字的识别,英文的识别,数字的识别等。本论文进行混合类文本的识别,比如一道物理试题可能含有数字,字符,汉字,图片等信息。3.对于传统字符分割算法的我们进行一定的优化改进,在字符分割操作中对于过分割的图像,我们使用一种合并算法,经过优化以后字符分割准确率达到92.002%,基本符合要求。4.针对字符识别阶段,我们分别使用了一些主流的深度学习模型,对各种模型的优势和缺点进行比较,最终获得较好的解决办法。5.收集并公开了物理试题分割结束后的数据集,含有11274个样本,这些样本可以推动该研究领域的向前进步。6.使用的二分类多分类模型在收集的数据集上的识别率都达到90%以上。2.研究方法2.1字符分割过程首先采用灰度变换,图像二值化,平滑去噪,图像腐蚀,膨胀来对获得的图片预处理,其中灰度变换我们使用的是加权平均法,图像二值化采用OSTU法,采用高斯滤波器对图像去噪。然后采用自底向上的版面分析算法分割出题目里面的图片。接着使用投影加连通域的方法对字符进行分割操作,考虑到连通域分割也许会产生重叠的问题,对分割后得到的图像进行合并是非常有必要的,经过这些步骤后能得到比较不错的分割效果。2.2基于深度学习模型的二分类为了增加模型的可信度,我们在二分类中考虑使用三种各有特点的模型进行二分类实验,并且比较每种二分类得到的结果,我们选取的三个模型各有各的优势,考虑到移动端手机算力可能不够的缺陷,使用MobileNetV2网络进行二分类,前两年ResNet网络大放异彩,使用ResNet152在进行一次实验是非常有必要的,最后为了和ResNet152进行对比,我们采用了层数和其差不多的DenseNet169网络进行二分类实验,相比于ResNet网络,DenseNet提出了一个更激进的密集连接机制:即互相连接所有层,更加详细的来说,其实就是每层会接受其前面所有层作为其额外的输入,ResNet是每层与前面的某层(一般是两到三层)短路连接在一起,连接的方式是通过元素级相加。而在DenseNet中,每个层都会与前面所有层在channel维度上连接在一起,并让其成为下一层的input。根据以上描述,认为ResNet152和DenseNet169的对比实验是很有意义的。2.3基于深度学习模型的多分类在多分类中,考虑到移动端设备的速度问题,我们仍然采用MobileNetV2模型进行一次多分类实验,当然和二分类一样的思想,为了增加本课题的真实性以及准确性,我们也需要使用对比实验。Inception网络的设计思路是:通过谨慎建筑网络,平衡深度与宽度,从而最大化进入网络的信息流。在每次池化之前,增加特征映射。当深度增加时,网络层的深度或者特征的数量也系统性的增加。使用每一层深度增加在下一层之前增加特征的结合。二ResNet设计思路是:供给两个连续卷积层的输出,并分流输入进入下一层。所以我们增加inceptionV3和ResNet50网络的比较是很有必要的。3.实验过程3.1实验数据的收集我查找了一些文献,也利用google,baidu等工具进行查询,最终而没有找到相关公开数据集合,所以为了实验能够进行的比较顺利,我们打算自己收集制作数据集,在网络上找到一些图像质量较好的初中物理试题的扫描版PDF文档,然后我们在七八年级的物理试题中每一张都截取一些试题,然后每一章随机选取一些试题,我们使用上面介绍的字符分割算法进行字符分割,最终得到11247个样本,然后我们人工手动把字符和汉字分出来,在字符中再把各种字符手动分离出来。对于多分类问题,由于字符数量不够多,所以我们使用了图像增强,给字符图片通过增加对比度,加噪声,调整图片的饱和度和对比度等方式来增加图片数量,提高模型的训练效果,由于正常环境下我们想通过图片进行试题识别时不会出现大幅度的字符旋转,所以图像增强中不采用旋转操作。3.2基于深度学习模型的二分类实验实验中数据集分被分为训练集和测试集两部分。实验在Nvidia GeForce RTX 2080Ti GPU 11GB的显卡tensorflow2.0环境上运行。由于数据集数量足够,所以二分类得数据集不需要采用数据增强,我们做了三个模型的实验,设置学习率为0.001,epoch设置为100,训练集和测试集的比例为8:2,由于二分类比较简单,效果表现较好,在DenseNet169模型中训练集准确率达到了 99.95%。,测试集正确率为100%.在ResNet152模型中训练集准确率达到了 99.88%。,测试集正确率也达到了 99.02%在MobileNetV2模型中训练集准确率达到了 100%。,测试集正确率为97.64%.3.3基于深度学习模型的多分类实验实验中数据集分被分为训练集,验证集和测试集三部分。实验在Tesla V100的显卡下,在tensorflow2.0环境上运行。由于数据集数量不是很充足,所以多分类的数据集中训练集,验证集使用了数据增强,测试集仍然是真实的数据,我们做了两个模型的实验,设置学习率为0.001,epoch设置为100,batchsize设置为64,训练集、验证集测试集的比例为6:2:2,在InceptionV3模型中训练集准确率达到了 99.97%,测试集正确率也达到了 99.78%,在ResNet152模型中训练集准确率达到了 99.9%,测试集正确率是 98.62%.3.4实验结果比较3.4.1二分类实验这三个模型中,DenseNet169在测试集中表现良好,完全正确的分类了所有数据:ResNet152在测试集上也有99.67%的分类准确率,当然MobileNetV2也有99.83%,所以在二分类的三个模型中,如果硬件配置足够,DesenNet169是一个比较不错的选择。其次,MobileNetV2对于移动端设备是非常友好的,在硬件配置不足的时,我们可以使用其进行二分类。最后ResNet152不是很推荐使用,因为它不但模型较为庞大,而且在实验中可以看出准确率不如DesenNet169,所以ResNet152是最不被推荐去进行二分类的。3.4.2多分类实验在多分类使用的模型中,ResNet152和InceptionV3都表现良好,由于多分类使用的是Tesla V100所以我们可以跑比较大的batch,得到的结果也比较不错,最终得到的结果是InceptionV3模型,训练时间比ResNet152更短,效果更好,训练后保存的模型占用存储空间更小。3.4.3模型泛化能力测试通过以上实验我们发现,模型在指定的数据集上表现良好,准确率很高,但是在真正的应用场景下的准确率还有待考证,所以我们找了 23道初中物理试题,来进行测试,看准确率是否能满足实际应用的需求,最终通过切割得到了 2438个字符,其中有162个字符分割错误。所以字符分割的准确率是93.36%,然后需要对得到的字符进行二分类操作,在二分类的三个模型中:MobileNetV2准确率为:96.33%,ResNet152准确率为98.67%,DenseNet169准确率为:99.75%,然后再对二分类得到的符号进行多分类操作,在多分类的两个模型中:ResNet152准确率为90.51%,InceptionV3准确率为93.30%。根据以上的实验数据可以看到,使用传统算法的图像预处理分割得到了相对不错的准确率,在图像识别过程中二分类的三种模型都有较好的分类效果。但在多分类中,可能由于,多分类模型训练过程中可能由于训练集中的数据量相对较少,得到的结果没有二分类那么高,但是准确率也有90%以上。最后,通过整体框架识别物理试题的准确率达到86.88%。

关键词:版面分析;字符分割;字符识别

学科专业:计算机技术

Abstract

摘要

Acknowledgements

Chapter1 Introduction

1.1 Research background and significance

1.2 Research Status and Existing Problems

1.2.1 Character Recognition

1.2.2 Deep Learning

1.3 The main research contents of the thesis

1.4 Thesis Organization

Chapter2 Related works

2.1 Deep learning and related technologies

2.1.1 Neural Networks

2.1.2 Convolutional neural network

2.1.3 Lightweight Network: MobileNet

2.1.4 Inception

2.1.5 DenseNet

2.2 Traditional OCR system

2.2.1 Traditional OCR technical process

2.2.2 Limitations of traditional OCR systems

2.3 Layout Analysis Theory and Method

2.3.1 Analysis of the structural characteristics of the layout

2.3.2 Layout Analysis Method

2.4 Summary

Chapter3 Physics problem texts recognition based on a hybrid method

3.1 Basic framework of physics problem recognition

3.2 Detailed design of data preprocessing

3.2.1 Image graying

3.2.2 Image binaryzation

3.2.3 Image smoothing and denoising

3.2.4 Image corrosion

3.2.5 Image dilation

3.3 Layout Analysis

3.4 Character Segmentation

3.5 Character classification

3.5.1 Binary classification for Chinese and non-Chinese characters

3.5.2 Multi-classification for physical symbols

3.6 Summary

Chapter4 Experimentation

4.1 Data set

4.1.1 Source of experimental sample

4.1.2 Sample collection

4.1.3 Data annotation

4.2 Experiment

4.2.1 Layout analysis experimental results

4.2.2 Character segmentation experiment results

4.2.3 Binary classification experiments for character images

4.2.4 Multi-class experiments on physical symbol

4.2.5 Model generalization ability test

4.2.6 Summary

Chapter5 Conclusions and perspectives

5.1 Conclusion

5.2 Future work

References

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:食品药品监督管理系统论文提纲下一篇:公司法律制度管理论文提纲