文本表现范文

2024-08-05

文本表现范文(精选3篇)

文本表现 第1篇

一、现实主义文学观中的“扁平人物”

现实主义文学创作是“圆形人物”和“扁平人物”观主要的生存土壤。现实主义文学家主张用“清醒的目光”看待世界, 创作“典型环境中的典型人物”。福斯特的“圆形人物”观和“扁平人物”观, 正是在总结19世纪现实主义文学创作的基础上产生的。里蒙·凯南在其《叙事虚构作品》中写道:“‘现实主义’的论点——如今处于守势——认为, 人物在行动的过程中获得了一种脱离他们生存于其中的事件的独立性, 可以在离开特定上下文一定距离时得到有益的讨论。……所谓的‘现实主义’论点是把作品人物看作对一般人的模仿, 并且倾向于把他们当作我们的邻居或朋友来对待——加工程度有所不同, 同时也把他们从作品的语言组织中抽取出来。” (1) 这个时期的文学人物大多是丰满鲜明、复杂变化的圆形人物。然而现实主义文学创作中, “扁平人物”依然成就斐然。狄更斯、莫泊桑、欧·亨利、马克·吐温等一些作家就以自身创作需求为根本, 在作品中着力塑造扁平人物形象, 极大丰富了文学艺术的存在方式。

另外, 扁平人物发挥其功能性价值, 成为其在现实主义文学创作中的主要存在方式。一部小说中的主要人物都是作家着力刻画的人物形象, 是作品灵魂和主旨的承载者, 但此外的具有扁平性特征的次要人物和为交代叙事的功能性人物, 就组成一部完整的作品而言, 不可或缺, 广泛存在于各类文学作品之中, 为调节故事情节的发展、人物关系的构建、牵动整个文本的叙事结构发挥着不可小觑的作用。

二、现代主义及后现代主义文学中的“扁平人物”

现代社会之前, 人们对于社会秩序、人类理性保持着一种乐观信赖的态度, 相信人是完整的、有自主性的生灵。当生产力逐渐发展, 资产阶级成为主宰时, 曾被信奉的理想社会、完美人格都没有出现, 甚至由于社会的高速发展, 人的生存环境日益恶化, 精神世界异常空虚不安。于是, 对社会产生强烈怀疑否定情绪的思想界上层知识分子, 将失去了独立性、自我个性的人, 塑造成现代主义文学中的“类”。个体与他人之间不存在差别, 那些所谓的、外在的确定一个人性格特征和思想内涵的东西成为了可有可无的因素。《老人与海》中的描绘没有社会背景的交代, 桑提亚哥只作为一个符号化的存在, “人”的个性被大大地削弱, 强化突出的是整篇作品的精神意义。而人物性格的鲜明独特, 使其所蕴涵的意义价值被艺术性地无限放大, 这种独特的扁平性却使其达到了典型人物所不能达到的哲学深度和人性深度。

后现代主义被认为是现代主义的一副新面孔, 认为世界本就是没有秩序可言的, 而理性更是不存在的东西, 人的属性充满不确定性, 难以定义, 更多时候只是一个道具, 一个符号。现代批评学家雅赖得·伏恺玛认为, “当模仿传统已经被釜底抽薪时, 小说中所剩的只能是平面” (2) 。新小说派代表作家罗伯-格里耶认为:“那些塑造传统意义上的小说人物的作家们, 在事实上, 只能够提供给我们一些连他们本身都很怀疑的木偶玩具。以人物刻画为主的小说已经完全属于过去, 它标志着, 一个时代、一个推崇个人的时代的终结”, 如今, “唯‘人’独尊的现象, 己经让位于一种更广阔的, 不再完全以人为中心的思想觉悟” (3) 。

三、结语

自文学伊始, 人类碍于简陋的生产力水平, 对自身性格思想的认识有很大的局限性, “扁平人物”即作为文学创作的主要人物形态, 其存在时间和人物形象丰富程度都要远远大于“圆形人物”, 而随着人类个体意识的加强, 社会进步的同时亦促使文学题材的丰富和技巧的娴熟, “扁平人物”于不同文学类型中更是有独特而不可替代的表现, 供人揣摩。

摘要:“扁平人物”是作家按照一个单纯的意念或特征塑造出来的人物形象, 具有单一性、固定性、夸张化和漫画化的特点。自E·M·福斯特在其理论著作《小说面面观》中首次提出以来, 其在不同文学类型中都有独特表现。系统分析“扁平人物”在不同文学类型中的叙事表现, 发掘其在作品中的文本价值及结构功能意义, 是对经典理论的重新审视, 亦是对现实创作的有力指导。

关键词:“扁平人物”,E·M·福斯特,《小说面面观》,文本表现

参考文献

[1] (英) E·M·福斯特 (著) , 苏炳文 (译) .小说面面观[M].广州:花城出版社, 1984.

[2] (以色列) 里蒙·凯南 (著) , 黄虹伟等 (译) .叙事虚构作品[M].北京:三联书店出版社, 1989.

文本表现 第2篇

经过一年的努力工作和不断学习,我获益良多。在这里,我就近一年的师德状况自我鉴定一下,以此发扬好的地方改善不足的地方,对回顾走过的路能够更好的看清前面的路。

品德是决定一个人价值的先决条件。没有良好的思想品德,其它的一切都是空谈。因此这一年来我坚持定期学习马列主义毛泽东思想,提高自身的思想觉悟。认真参加学校组织的政治学习,用心响应党的号召,坚决执行党的方针、政策,忠于人民的教育事业,模范遵守《中小学教师职业道德规范》,爱岗敬业,关心群众,乐于助人。

在工作中,我很注重自身的品德行为,努力给学生树立一个良好的榜样,在教学过程中,努力采用多媒体教学,设计新颖的教学方法吸引学生的学习用心性,同时,对学生进行知识教育与情感态度、价值观的结合教育,培养新世纪的合格小学生。

当然,这一年来我也有很多不足的地方,比如,作为老师,我没有花多点时光去深入学生,了解学生,我觉得这是不够的,俗话也说,知己知彼,方能百战百胜,要想更好的做好教学工作,就应深入了解学生。还有,对信息技术新教材仍缺乏学习。

这一些将成为我下一年的改善的方向,争取在各个方面做得更好。

2021年教师师德师风表现自我评价文本【二】

不知不觉一年的时间就这样过去了,在这一年里,我在院领导、部门领导及同事们的关心与帮助下圆满的完成了各项工作,在思想觉悟方面有了更进一步的提高。

在思想政治表现、品德素质修养及职业道德上。本人能够认真贯彻党的基本路线方针政策,通过报纸、杂志、书籍积极学习政治理论;遵纪守法,认真学习法律知识;爱岗敬业,具有强烈的责任感和事业心,积极主动认真的学习专业知识,工作态度端正,认真负责。

在专业知识、工作能力上。我不怕麻烦,向领导请教、向同事学习、自己摸索实践,在很短的时间内便熟悉了学院的工作,明确了工作的程序、方向,提高了工作能力,在具体的工作中形成了一个清晰的工作思路,能够顺利的开展工作并熟练圆满地完成本职工作。为了学院工作的顺利进行及部门之间的工作协调,除了做好本职工作,我还积极配合其他同事做好工作。

在工作态度和勤奋敬业方面。本人热爱自己的本职工作,能够正确认真的对待每一项工作,工作投入,热心为大家服务,认真遵守劳动纪律,按时出勤,有效利用工作时间,坚守岗位,保证工作能按时完成。

在工作质量成绩、效益和贡献方面。本人在开展工作之前做好个人工作计划,有主次的先后及时的完成各项工作,达到预期的效果,保质保量的完成工作,工作效率高,同时在工作中学习了很多东西,也锻炼了自己,经过不懈的努力,使工作水平有了长足的进步,开创了工作的新局面,为学院及部门工作做出了应有的贡献。

在过去一年的工作,虽说是有了一定的进步和成绩,但在一些方面还存在着不足。比如个别工作做的还不够完善,这有待于在今后的工作中加以改进。在新的一年里,我将认真学习各项政策规章制度,努力使思想觉悟和工作效率全面进入一个新水平,为学院的发展做出更大更多的贡献。我任职五年来,能热爱党的教育事业,坚持四项基本原则,拥护党的路线、方针、政策,有正确的政治立常遵守法规法纪,关心集体,团结同事,作风正派,从严治教,有较高的思想觉悟和良好的教师职业道德。能全心全意从事本学科的教学,力求精益求精,绝对服从上级和学校领导的工作安排,任劳任怨,诚诚恳恳,从工作中去体味教育工作的崇高,从工作中去获取人生的奋斗意义,在工作中去享受为人师的乐趣,在工作中逐渐充实了自己。

2021年教师师德师风表现自我评价文本【三】

在这一学年度的工作中,我能够贯彻国家的教育方针,遵守规章制度,严格执行学校教学计划,完成教育教学工作任务。遵守《职业道德规范》,做到依法执教、爱岗敬业、热爱学生、严谨治学、团结协作、尊重家长、廉洁从教、为人师表。现就本学年的工作小结如下:

一、做到了严于律己,以身作则,为人师表,时刻注意自己的言行举止(做到语言文明,待人礼貌,举止端庄,衣着朴实,仪容整洁)使自己在思想、学习、劳动、生活等多方面做学生的表率,给学生树立一个好的榜样。教师是学生的榜样,一言一行都会影响学生的成长,必须言传身教相结合。在具体的教学实践中,我始终把师德放在第一位,对学生热心、耐心、贴心,不歧视学生,对学生一视同仁,发现学生进步之后,及时表扬,激发学生的荣誉感,并且严格约束自己的言行,因为我深知“身教重于言教”,“为人师表”是多么重要。

二、做到了关心、爱护全体学生,尊重学生人格,从不体罚学生,促进学生在品德、智力、体质等方面全面发展。既是学生的老师,又成为了学生值得信任的朋友。作为班主任,我结合教育教学的特点,将思想教育和品德教育贯穿在教育教学活动的全过程中,帮助学生逐步树立正确的人生观和价值观,促进学生全面发展。一旦发现有学生的思想出现问题,及时找他谈心,纠正他的一些不良思想和行为。一旦有学生生病了,马上带他去校医室看病,或请家长过来接孩子回去看病。

三、在提高自身思想政治觉悟的同时,加强教育教学专业理论和业务学习,不断提高教育教学业务水平。认真参加科组教研活动,和同事一起学习和探讨专业知识以及教学的新观念、新思想,并把这些新的教学方法运用到教学中去。

四、遵守国家法律法规,热爱学校,遵守学校规章制度。从不迟到或者早退,有时候生病了也能坚持上好课。我尽量做到严于律己,对工作认真负责,一丝不苟;与同事团结协作,顾全大局。

2021年教师师德师风表现自我评价文本【四】

师者,传道授业解惑者也.通过学习,我深刻地认识到,实现四个现代化,科技是关键,教育是基础,振兴教育的希望在教师。教师教书育人,作用至关重要,教师除了重视教学之外,还要重视自身的学习,不断提高自己的专业水平,这样才能与时俱进,迎接时代的挑战。下面将本人的专业理论水平做个简单的总结:

一、加强政治学习,使自己具备思想政治素质和职业道德素质。要关心时政学习,积极拥护党的方针政策,认真学习邓小平建设有中国特色的社会主义理论,学习三个代表的重要思想,学习《教师法》、《义务教育法》、《新世纪教师素养》等,坚定爱岗敬业、献身教育的信念,坚持育人为本的宗旨,要依法执教,严谨治学,团结协作;要廉洁从教,以身作则。

二、积极投身于并报课程实验中,要更新教育观念。在个人角色定位上,一要从单纯的教育者转变为教育的研究者。在教学过程中,置身于教学情境中,用研究者的眼光分析教学理论和实践问题,反思自己的行为,积累经验,探索规律性的认识;二是从书本知识的传授者转变为创造型教师,用自己的创造性言行潜移默化的感染学生,为学生提供宽松、愉快的创造氛围。在师生关系中的角色定位上,一要从知识的灌输者转变为知识学习的引导者,是学生的支持者,学生士气的鼓舞者,克服困难的援助者;二要从知识和课堂上的权威转变为平等交流的伙伴,教学中建立师生、生生间相互交流的机制。在与课程关系中的角色定位上,从单纯课程实施的执行者转变为课程的建设者和开发者,从单纯的知识传递转变为终身学习的形成,帮助学生形成方法意识,使学生主动寻找和创造新的方法解决问题。

三、认真学习,努力实践,合作交流,充实专业知识,培养专业技能。随着我国经济和社会发展,未来教育发展的重点将更多的转向满足人们对高质量教育的要求。因此,我们要立足岗位,紧密结合工作实践,通过各种方式的学习和研究,不断提升自己的专业水平,积极参加继续教育学习,提高自己的思想政治觉悟和师德修养,更新和扩展专业知识,掌握现代教育理论和实践技能;掌握教育教学技能和现代教育技术。积极参与培训,要以问题为中心,以岗位为课堂,以实践为老师,在教育教学过程中,注重发现问题,解决问题和教育教学实践能力的发展,突出对课堂教学实际情境与自身教学经验的多视角、多层次的分析和反思,要以回顾学生的视角进行反思,以教师的视角对自己教学观念、行为、设计观念进行深刻的审视。要通过学生眼睛来反思自己的教学,要通过约请同事观察研究教学来反思,要通过问请理论文献来反思自己的教学,要通过学生家长对学生的发展要求反思自己的教学。当今社会,政治经济飞速发展,教育改革步步深入,我对自己的专业水平有一个清醒的认识,我决心树立新的人才观、质量观和自身职业观,不断学习,不断更新知识结构,提高教育教学能力和其他相关能力,为全面贯彻执行党的教育方针,为全面实施素质教育而努力奋斗!

2021年教师师德师风表现自我评价文本【五】

时间观念强,诚实守信、塌实肯干、肯吃苦、做事细心,上进心强、性格开朗有较强的自学能力和适应能力;对工作认真负责,一丝不苟,并且有良好的自学能力;做事条理性强,乐于与人合作,有较强的团队精神,平时喜爱读书、听音乐、户外活动等。个性乐观开朗,谦虚、自律、自信,能快速适应不同的环境,善于与人交流合作,具有创新意识,富有开拓激情;

文本表现 第3篇

摘要:针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考。

关键词:中文文本;文本分类;数据挖掘;情报分析

中图分类号:TP274;TP302 文献标识码:A

文本挖掘是语言学、统计学以及计算机技术相结合的产物,是对海量文本信息进行自动处理,获取人们感兴趣的、隐含的、有用信息的过程,在信息检索、生物医学、情报获取、舆情分析和市场营销等众多领域备受关注。文本分类作为文本挖掘领域中的核心技术,是各种自然语言处理、应用的基础。其中分类模型的选择对最终结果具有至关重要的影响。然而,因所基于的原理、参数、应用场合各不相同,即使相同的模型其性能表现也往往大相径庭。

新闻文本是一类常见的文本形式,其蕴含的信息量大,是各种情报分析的重要数据源。尽管现有的各个新闻网站以栏目形式对新闻进行了人工划分,然而各网站的分类体系和栏目形式各不相同,因此在具体的新闻挖掘应用项目中,常需将采集的新闻数据重新进行组织和划分。中文文本分类领域中具有代表性的模型是朴素贝叶斯、N-Gram,K最近邻和TF-IDF。这些不同的模型各具有怎样的特性?分别适合哪些场合?在使用时应如何选取合适的参数?人们往往面临困惑。由于各方法在处理细节上有不少差异,很难从理论分析的角度来比较各方法的优劣。因此,基于典型数据,采用实验的方式进行比较是比较通行的做法。本文精心构造了多组实验,从模型参数选取、训练数据规模、训练文本长度、数据是否偏斜等几个情境来考察各模型在不同情境下的性能表现,其结论对中文文本分类模型的选择与参数设置等具有实践指导意义。

1 模型概述

文本分类就是通过计算机程序自动将某个文档归属到事先给定的类别体系中一个或多个类别。现有的文本分类方法大致可归为两类:基于规则的方法和基于机器学习的方法。其中基于规则的方法早在20世纪70年代就已出现,但因规则制定的困难,目前普遍采用的是基于机器学习的方法。而机器学习方法中,基于统计的方法是最具有代表性和使用最为广泛的。其中,N元模型(N-Gram)、朴素贝叶斯(NB),K最近邻(KNN)和TF-IDF又是其中最经典的几个模型。

N-Gram模型基于马尔科夫假设,即下一词的出现概率仅依赖于它前面的N个词,统计N元词串在各类别中出现概率,以此确定文档归属于哪个类别。朴素贝叶斯模型基于贝叶斯定理,假设单词两两独立,获得各文档类别的后验概率,哪个类别概率值大,文档即归属于该类别。KNN的主要思想是先将文档内容转化为特征空间中的特征向量,计算待分类文档与训练文档中每个样本的相似度,找出其中的k个最近邻居,据此判别文档所属类别。TF-IDF则先将文本内容转化为特征向量,然后计算其与类别特征向量间的余弦相似度,以此作为其所属类别的判据。分析上述模型,不难发现,N-Gram模型主要是提取了不同类别文档中字与字之间的顺序依赖关系来构造分类特征,朴素贝叶斯则提取了不同类别文档中词与词之间的概率依赖关系构成分类依据,K近邻直接利用了空间向量模型,以文档相似性特征作为分类依据,而TF-IDF则同时考虑了词在文档本身中的出现频度以及其在不同文档中的出现频度信息。几个模型所抓取的文档类别信息特征明显不同,很难在理论上判别哪个模型更好,更适合哪些情境。因此,从实验的角度来考察是更为切合实际的方案。

2 基础与准备

2.1 算法实现工具

LingPipe是基于Java语言的自然语言处理的开源软件包,提供了文本挖掘各阶段的基本功能。由于该软件包的数据处理都基于一个共同框架,采用了相同的基础源代码模块,故本文以其作为算法实现工具,可尽量减少模型本身之外的因素(如文本预处理阶段的分词、特征提取、文本表示等)给模型性能带来的影响。

2.2 实验数据

本文实验数据采集来自新浪、腾讯、凤凰等主流网站。特地挑选了历史、军事、文化、读书、社会几个比较近似,甚至人工也容易分错的文本类别。其中,历史类和军事类的文章比较相近,而文化类和读书类的也常相似。数据采集跨时2个月,去除了所有Html标记和网页中的噪声文本,只包含标题、正文内容以及标点符号。共采集16000篇,去除了部分重复和校验过程中有问题的文档,最终保留14000篇作为本文研究的语料数据。其中含历史1900篇,军事1600篇,文化2500篇,读书4000篇,社会4000篇。每篇文章按类别以txt文件的形式保存。各类别、不同文本长度的文档篇数分布情况如表1所示,所有文档的长度介于10000字节以内,涵盖了网页中的绝大多数新闻文本长度。

2.3 分词与特征项

尽管特征选择和预处理措施都是影响文本分类性能的关键因素,但因各模型算法原理相差太大,无法基于统一的特征项和预处理进行比较。因此,各模型的特征项均以词频为基础,采取各模型常用的特征形式和预处理方式。N-Gram模型本身不需分词,因此未做分词处理,而其它模型则应用中科院分词系统NLPIR_2014进行分词处理。

2.4 分类评价指标

LingPipe提供了一系列指标对模型性能进行评估。本文实验主要采用宏平均、微平均下的F值进行评价,它综合考虑了准确率、召回率两个被广泛认可的分类器评价指标。其详细定义和含义可参见相关文献。此外,实验过程中,还记录了各模型的训练和分类运行时间。这也是反映分类模型性能的一个方面。

3 实验方案与结果

从应用角度来看,分类准确度和处理效率是用户最为关注的两个方面。而影响这两方面的因素无外乎模型本身和待处理的数据,如图1所示。模型本身因素具体包括模型的构造机制和模型参数。其中,模型机制对用户而言是封装的,要提升分类性能,用户只能调整模型参数。而数据方面,文本的词语和语义特点太过复杂和精细,用户难以据此选择模型。然而待处理文本的长度、规模和偏斜程度等是影响分类性能的重要因素,用户可以据此选择最合适的模型。因此,本文主要设计了4组实验考察不同情境下中文文本分类模型的表现。下面具体阐述各组实验的具体方案及结果。

3.1 模型参数与模型性能

所述的4个分类模型中,NB模型和TF-IDF模型没有参数,而N-Gram和KNN模型则分别有一个关键参数N和K。先对这两个模型进行不同参数取值下的实验。所采用的数据集文档篇数情况如表2所示。

3.1.1 关于N-Gram模型参数N的实验

根据N-Gram模型中参数N的含义,字与字之间的概率依赖关系主要由词组造成,汉语超过6个字的词组已经相当稀少。本组实验考察了N取值为1,2,4,6,7的情形,获得结果如表3所示。可见,随着N取值的加大,该分类器的分类性能也越高,但在N超过4以后,分类性能改善幅度已相当小,而训练时间和测试时间却成倍增长,为此,后述实验均取N=4,不再赘述。

3.1.2 关于KNN模型参数K的实验

参数K为经验参数,表示选取的近邻个数,其值的大小对于模型的分类性能有显著的影响。实验中,为确定K最佳值,将K分别取值1,3,5,10,20,获得如表4所示结果。显见,随着K值的增加,分类性能有缓慢下降趋势,表明并非选取的近邻数越多越好。原因在于KNN基于向量空间模型,维数较高,数据比较稀疏,K值越大,反而可能带来更多的误判信息。本实验中,K取值为1时分类性能最优,因此在后述实验中均取该最优值。

3.2 训练集规模与模型性能

为了考察各模型在不同训练集规模情境下的性能表现,分8次小实验,每次从实验语料中抽取1000,2000,3000,4000,5000,6000,7000,8000篇文档构成训练集,抽取1000篇文档构成测试集。抽样过程中,为了消除各类别新闻分布不一致、文本长度不一致所带来的影响,进行了适度控制,即确保8次实验中,各类别新闻的比例保持一致,各文本长度所占比例也保持一致。在此控制下,随机抽取样本,每次实验进行3次,以其平均值作为最后结果。实验结果如表5所示,图2展示了不同训练集规模情境下,模型性能(微平均下F值)的情况;图3和图4则分别展示了分类训练时间和测试时间与训练集规模的关系。

由表5以及图2~图4可知,在各类别数据相近的情况下,随着训练集规模的增大,各模型的分类性能也均得到提升并渐趋于平稳,与文献结论相同。KNN改善效果最为明显。就运行时间而言,各分类模型随着训练集规模的增大,训练时间明显增加,而测试时间仅KNN分类模型显著增加,其它则变化微小。通过逐渐加大训练集规模,实验还发现,在测试集不变的情况下,训练集达到一定规模后(例如7000篇),即使再显著增大训练集规模,分类性能的改善也非常微弱。

3.3 文本长度与性能

为了考察各模型在不同文本长度情境下性能的表现,将训练数据的每个类别都按文档大小进行划分,抽取5个子集,分别为1000字节以下,1000-2000字节,2000-3000字节,3000-5000字节,5000字节以上。在保证5个子集的类别分布和规模分布一致的前提下,随机抽取样本构成训练数据,实验数据如表6所示。该实验共进行3次,取3次实验结果的平均值作为最终结果,如表7所示。图5展示了不同文本长度情境下,模型性能(微平均下F值)的情况;图6和图7则展示了分类训练时间和测试时间与文本长度的关系。

对文本长度情境而言,从表7以及图5~图7可以看出,随着文本长度的增加,除KNN模型外,其它3个分类模型的准确性能在初期快速提升,其后趋缓而渐趋平稳,但KNN快速提升后却逐渐下降。实验还发现,在文本长度短时(小于1000字节),TF-IDF模型要好于其它3个模型。从时间性能来看,各模型都随文本长度增加而近似呈线性增长趋势。其中NB和TF-IDF相对较逊一筹。

3.4 类别偏斜与模型性能

为了考察各模型在类别是否偏斜情境下性能的表现,我们设计了类别均衡和非均衡两组实验,实验数据集如表8所示,训练集和测试集规模相同,非均衡训练集中读书和社会两个类别远高于其它类别数据,而均衡训练集中各类别文本数相同。每组实验共进行3次,随机抽取样本构成训练数据。取3次实验结果的平均值作为最终结果,如表9所示。

对类别偏斜情境而言,观察可知,各模型整体性能及各类别分类性能在均衡训练集情境下的表现均优于在非均衡训练集下的性能表现。在非均衡训练集情境下,对各小类而言,包含文本数较多的读书和社会两个类别的分类性能要优于其它类别,与文献对训练集类别分布对文本分类影响的研究结果类似。4个分类模型中,对于类别均衡数据而言,TF-IDF表现最佳,对于类别非均衡数据而言,NB表现最佳。

4 结论

本文所考察的几个模型是当前文本分类领域应用最为广泛、最为经典的。在实践当中,各模型的表现各异,而在理论上又很难分析和评价其优劣。为此本文构建了多组实验来考察不同情境下各模型的表现,形成的结论及模型选择建议如下:

1)几个模型在运行效率方面没有明显的区别,训练和测试时间都与数据集的规模和文本长度呈线性关系。实验结果看,NB模型和TF-IDF虽然稍逊,但实际应用中,此差别并不明显,可以忽略。

2)不管在何种情境下,KNN的表现都最差,因此不推荐采用此模型。

3)从训练集规模来看,几种模型都是随着规模增大而分类精确性稳步增加,训练集的大小不构成模型选择的关键依据。

4)N-Gram、TF-IDF、NB三个模型的分类精度受文本长度的影响差别不大。都随文本长度的增加而精度得到提升,且都在长度低于1kb(约400汉字)时提升较明显,而此后提升速度放缓。KNN则未能因文本长度的增加而提升其精确度。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【文本表现】相关文章:

2021年教师师德师风表现自我评价文本08-25

场控文本及警告文本08-24

交际文本05-13

拓宽文本05-13

汉英文本05-14

政策文本05-18

文本形态05-18

文本建构05-21

生成文本05-26

尊重文本06-06

上一篇:100m跑速度训练下一篇:学者精神