PLS模型范文

2024-07-16

PLS模型范文(精选7篇)

PLS模型 第1篇

关键词:PLS,PLS路径模型,区域商品房顾客满意度模型

随着我国城市建设步伐日益加快, 商品房已成为新的消费热点, 住宅商品房的买方市场也已经形成, 居民对住宅的质量、环境都开始有了严格的要求和选择。不同文化水准、不同地区、不同层次、不同经济实力的顾客, 对住宅商品房都有不同的需求, 在这样的大环境下, 房地产开发企业在了解区域市场和消费者的居住需求、摸清消费者对其开发地块的地理位置、经济及周边环境的基本状况, 按照整个城市的规划要求, 给所要开发的项目制定对应的建设标准显得十分必要。

笔者依据中国顾客满意度模型、美国顾客满意度模型和对湖南省衡阳市商品房顾客满意现状的调查, 参考一些学者的研究成果, 建立了适合湖南省衡阳市的区域商品房顾客满意度潜变量模型及其指标体系, 为房地产业开发企业的前期规划工作提供决策支持, 有助于他们更好的根据特定区域顾客的需求, 建造适销对路的商品房, 从而提高企业的经济效益和社会效益。

一、区域商品房顾客满意度潜变量模型和指标体系

如图1所示, 所建立的衡阳市区域商品房顾客满意度潜变量模型, 为一结构方程模型, 模型中有五个潜变量, 其中, 顾客期望为外生潜变量, 感知质量、感知价值、满意度和顾客抱怨均为内生潜变量, 整个模型以满意度为中心变量, 与美国顾客满意度模型和中国顾客满意度模型不同, 该模型并未考虑顾客忠诚问题, 因为商品房属于不动产范畴, 对一般顾客而言, 对其所发生的购买行为往往是一次性的, 只有个别专业从事房地产交易商或投机者才会发生重复性购买行为。该模型各潜变量的指标, 又称为可测变量, 如表1所示, 且都采用反映型指标。

由于笔者的区域商品房顾客满意度模型是在美国顾客满意度模型和中国顾客满意度模型运用的基础上构建而成, 而且笔者的目的在于探求各变量之间的影响力大小, 以寻求影响顾客满意度的主要路径, 因此提出下列假设, 而未做出具体说明:

H1: 顾客对商品房质量、个性化服务和升值潜力的预期对感知质量产生显著的正向影响。

H2: 顾客对商品房质量、个性化服务和升值潜力的预期对感知价值产生显著的正向影响。

H3: 顾客对商品房感知总体质量水平、感知工程质量水平、感知面积大小、感知地处交通状况、感知地处人文和生活环境和感知物业管理服务对感知价值产生显著的正向影响。

H4: 顾客对商品房质量、个性化服务和升值潜力的预期对顾客满意度产生显著的正向影响。

H5: 顾客对商品房感知总体质量水平、感知工程质量水平、感知面积大小、感知地处交通状况、感知地处人文和生活环境和感知物业管理服务对顾客满意度产生显著的正向影响。

H6: 顾客对商品房质价比较感知程度和价质比较感知程度对顾客满意度产生显著的正向影响。

H7: 商品房顾客满意度对顾客抱怨产生显著的负向影响。

结构方程模型是一种综合性的统计建模技术, 由于能有效处理含潜变量的问题, 而被广泛应用于经济学, 心理学, 行为科学等领域的研究。目前, 主要有两大类估计技术求解结构方程模型。-种是基于最大似然估计的协方差结构分析方法, 该方法被称为“硬模型” (Hard Modeling) , 以LISREL 方法为代表; 另一种则是基于偏最小二乘 ( PLS) 的分析方法, 被称为“软模型” (Soft Modeling) , 以PLS方法为代表。由于PLS求解结构方程模型相对于LISREL 方法有诸多优点, 而得到广泛的运用, 基于PLS的结构方程模型被称为PLS路径模型, 是检验观测变量和潜变量、潜变量和潜变量之间关系的一种多元先验模型。本项研究数据来源于对湖南省衡阳市广泛的抽样调查, 收集到有效问卷233份。数据分析工具为德国汉堡大学开发的smartpls 2.0 软件。

二、PLS 路径模型基本原理

(一) PLS 路径模型设定方法

首先假设对于n 个观测样本点有j 组可测量变量 Xj={xj1, xj2, …, xjh, …, xjk}. 设它们都是标准化的变量, (即变量的均值为0, 方差为1) , 且可观测变量和潜变量、潜变量和潜变量之间是线性组合关系, 所有的可测变量都是单一维度, 也就是测量单一潜变量。

PLS 路径模型主要由两部分组成:描述可测变量与潜变量之间的关系的测量模型和用于描述潜变量之间关系的结构模型。测量模型的测量方程因所采用的指标类型而不同。

采用反映型指标的测量方程为:xjh=λjhξj+εjh (1a)

采用构成型指标的测量方程为:undefined (1b)

结构模型又称为理论模型, 描述潜变量之间的因果关系。其结构方程为:

上述方程中, ξj为潜变量, 且经过标准化处理, λjh和πjh为因子负荷, βji为路径系数;εjh、δj和ζj为误差项, 均值都为0, 且与预测变量 (Predictive variables) 不相关。

(二) PLS 路径模型参数估计方法

偏最小二乘法估计结构方程模型分为两个步骤:第一步:通过反复迭代得到潜变量估计值;第二步: 通过普通最小二乘法进行线性回归, 得到测量模型和结构模型的参数估计值。与协方差结构分析方法估计结构方程模型不同, 偏最小二乘法意在使测量方程和结构方程的误差项达到最小化。对潜变量ξj的估计可以从两方面进行:一方面认为潜变量ξj可以由第j 组可观测变量Xj的线性组合来估计, 记为Yj称为潜变量ξj的外部估计:

Yj∝XjWj (3)

其中, Wj={wj1, wj2, …wjh…wjk}为外部权重向量。符号“∝”表示对计算结果进行标准化处理。

另一方面, 如果Yi (i≠j) 是与ξj直接相关联的潜变量ξi的外部估计值, 还可以利用Yi来估计潜变量ξj, 这一估计值被记为Zj, 称为潜变量ξj的内部估计:undefined

内部权重eji, 有三种计算方法:Centroid权重计算法, Factorial权重计算法和Path权重计算法。Herman O.A.World赞成Centroid权重计算法, 而Wynne W. Chin认为应根据潜变量间的相关性大小不同而选择不同的计算方法, 但通常三种方法的计算结果没有明显的区别。

外部权重向量 的计算方法, 有两种模式:

采用反映型的计算方法选择模式A:wjh=cor (xjh, Zj) (5a)

采用构成型的计算方法选择模式B:Wj= (X′jXj) -1X′jZj (5b)

接下来开始迭代:

首先对外部权重向量Wj进行初始化, 可令Wj= (1, 0…0) , 通过公式 (3) , 得到Yj的估计值;

得到Yj的估计值后, 通过公式 (4) , 可以得到Zj的估计值;

根据Zj的估计值, 通过公式 (5a) 或者 (5b) , 可以计算出新的权重向量WJ (2) ;

利用计算得到的Wundefined, 通过公式 (3) , 可以得到新的Yundefined。

若迭代收敛, 则停止, 否则转到第二步继续迭代, 则以最终得到Yj的作为对潜变量ξj的估计值。得到潜变量的估计值后, 运用普通最小二乘的线性回归方法, 来估计测量模型和结构模型中的各项参数。

三、区域商品房顾客满意度模型计算结果

(一) 评价测量模型

求出PLS路径模型的各项参数后, 就对模型的合理性进行评价。复合信度系数ρ可作为测量工具的信度系数。若信度系数高, 表示各指标内部一致性高。一潜变量ρ大于等于0.7, 表明这一潜变量的变化至少能解释对应测量工具70%的变化。也就是说ρ越大, 测量工具越是可靠。复合信度系数的计算公式为:

其中, k表示一潜变量下指标的个数, λh表示一潜变量下的第h指标的因子负荷。

高信度并不表示测量是单一维度。换句话说, 一个测量工具有高信度系数, 并不一定是测量单一潜变量。满足单一维度的条件通常是所有的因子负荷λ要大于0.5才能保证指标和潜变量之间的有足够的线性等价关系。经smartpls2.0计算, 因子负荷和复合信度系数如表1所示, 表中因子负荷的绝对值都大于0.50, 表明指标和潜变量间的有足够的线性等价关系, 满足偏最小二乘法单一维度的条件。复合信度系数都大于0.70, 表明信度高, 测量模型内部一致性好。

另外, 模型的区分效度法 (Discriminant validity) 必须得到检验, 区分效度法是检验各潜变量互相区别的程度, 是否有独立存在的必要。可通过比较潜变量平均萃取变异量 (Average variance extracted) 的平方根值和潜变量间的相关系数的大小来判断两潜变量的区分程度, 是否能够独立存在。 若平均萃取变异量的平方根值远大于相关系数, 表明测量模型有良好的区分效度。平均萃取变异量计算公式如下:

其中, k表示一潜变量下指标的个数, λh表示一潜变量下的第h指标的因子负荷, 计算结果如表2所示。显然, 该模型有很好的区分效度。

注:对角线是AVE 平方根值, 对角线以下是相关系数

(二) 评价结构模型

模型中的假设可由路径系数的大小和显著性水平来检验, 表3给出了假设检验结果。Smartpls 2.0以Bootstap 方法来检验路径系数的显著性, 以t值作为Bootstap的计算结果, 若t值大于t0.05值或t0.025 (14) 值, 则表明路径系数在统计学上是显著的。

如表1、3所示, 顾客对商品房质量、个性化服务和升值潜力的预期与感知质量强烈正相关, 顾客对商品房质量、个性化服务和升值潜力的预期对感知价值产生显著的正向影响, 顾客对商品房感知总体质量水平、感知工程质量水平、感知面积大小、感知地处交通状况、感知地处人文和生活环境和感知物业管理服务与感知价值成强烈正相关, 因此, H1, H2, H3 得到支持;路径系数γ=-0.12表明顾客对商品房质量、个性化服务和升值潜力的预期对顾客满意度产生负向影响, 这与原假设相违背, 可能的解释是;当前房地产商所提供的实物标的及与其相关的服务尚不能达到顾客需求标准, 房地产商不切实际的过度宣传, 也有可能误导顾客的消费倾向, 进而使顾客期望过高, 因此, H4未得到支持;顾客对商品房感知总体质量水平、感知工程质量水平、感知面积大小、感知地处交通状况、感知地处人文和生活环境和感知物业管理服务对顾客满意度产生非常显著的正向影响, 说明只有充分为消费者提供高质量的商品与服务, 才能使顾客得到满意, H5得到支持;顾客对商品房质价比较感知程度和价质比较感知程度与顾客满意成较强烈正相关, 因此, H6得到支持;路径系数γ=-0.67表明商品房顾客满意度对顾客抱怨产生显著的负向影响, 这意味着顾客满意度减少的结果是增加的顾客抱怨, Hirschman (Hirsman, 1970) 的“exist-voice”理论可解释为:当顾客不满意时, 除了可能停止从提供者购买产品或服务, 还可能告知提供者他对产品 (服务) 的不满意, H7得到支持。

模型的解释能力可由多重判定系数的大小来说明, 多重判定系数越大, 说明预测变量对因变量的解释能力越强。如表3所示, R2值都很大, 表明模型的解释能力好。

四、结论与建议

笔者首先得出感知质量对商品房顾客满意度产生最强烈的正向影响, 其次为感知价值;与原假设不同的是顾客期望对商品房顾客满意度产生一定的负向影响;而顾客满意度与顾客抱怨成强烈负相关。此外, 计算结果表明该模型具有很好的解释性。

商品房由于它的建设周期长, 整体价格高, 消费次数少等特点, 决定了它的高风险。而顾客的满意是决定整个项目是否成功的重要标准, 房地产开发企业必须潜心研究消费者的爱好和行为, 驾驭顾客的需求, 提供优质的服务, 才能赢得消费者的芳心, 通过实施顾客满意度战略, 建立商品房主体质量、面积和空间规划、地理位置、价格、自然环境等内容的顾客满意体系指标, 根据顾客满意体系得出的结果, 在市场上进行准确的定位, 同时保证工程质量、功能质量、环境质量、服务质量, 还有社区文化质量、生活环境质量等做到项项优质, 达到技术与经济的最佳结合, 经济、社会、环境效益的高度统一。使得建造的房地产既有房子自身实用的功能, 又有新思想、新内涵和新概念, 赋予房子灵魂、情感功能, 给消费者以美感和遐想。这样, 企业品牌的美誉度、认知度、忠诚度才能得以维持与加强, 才能在激烈的市场竞争中保持自己的竞争优势。

关于运用的区域商品房顾客满意度模型还有许多有待研究的问题, 例如, 模型的指标体系可能设置的不够全面和准确, 更多的因素应考虑在内。而且, 随着时间和地点的变化, 结果可能会发生很大的变化。尽管如此, 本项研究对房地产商制定战略和其他研究有些借鉴意义。

参考文献

[1]Claes Fornell, Michael D.Johnson, Eugene W.Anderson, Jaesung Cha, &Barbara Everitt Bry-ant, The american customer satisfication index:nature, purpose, and findings[J], Jouneral ofmarketing, vol.60, , Oct.1996:7-18.

[2]WangWen-hui, Partial leastsquares regression-linear and nonlinear methods (in chinese) [M], National defense industry press, 2006:150-151.

[3]The PLS approach to generalized linear models andcausal path modeling:Algorithms and application[C], IASC session interface meeting Montreal (Canada) , April 19th, 2002:1-10.

[4]Louis Raymond and Josee St-Pierre, Antecedentsand performance outcomes of advance manufactur-ing systems sophistication in SMEs[J], Journal ofOperations&Production Management, vol.25, no.6.2005:511-533.

[5]Wynne W.Chin, Partial Least Squares is to LIS-REL as Principal Components Analysis is to Com-mon Factor Analysis[J], Technology Studies, Feb, 1995:315-319.

[6]Hirschman, Albert O, Exit, voice, and loyalty-responses to decline in firms, organizations, andstates[M], Harvard university press, 1970:1-9.

[7]Lin Sheng, The study on customer satisfaction assess-ment in service industry based on the partial leastsquare for structural equation modeling[D], TianjinUniversity College of Management, Dec, 2002.

PLS模型 第2篇

关键词:突变理论,PLS,评价指标体系,缺水程度评价

1 突变原理

1.1 突变模型

该理论认为, 在某一发展变化过程中, 事物常常会从一个状态跳跃式地变到另一个状态, 或经过缓慢、连续的变化, 会产生一种不连续的变化, 即突变现象的发生。突变理论能直接处理不连续性问题、而不联系其任何特殊的内在机制和规律。

突变理论归纳出若干个初等突变模型, 一般的突变模型是指Rene.Thom归纳的7个初等突变模型。常用有尖点突变、燕尾突变和蝴蝶突变 (皆为一个状态变量) 。

1.2 突变理论归一公式

通过分解形式的分歧方程导出归一公式, 归一公式将系统内部各控制变量的不同质态规划为可比较的同一种质态, 即用状态变量表示的质态。运用归一公式, 可求出表征系统状态特征的系统总突变隶属函数值, 即利用突变理论进行综合分析评判的基本运算公式。常用的三中突变模型的归一公式:

尖点突变:

燕尾突变:

蝴蝶突变:

在归一公式中, 状态变量X及诸控制变量皆取0~1范围的数值。突变级数法规定, 必须遵循“越大越好”原则的准则模型体系, 方可用归一模型计算。如果n个控制变量的矛盾关系是均衡的, 则求得的状态变量X的值为n个控制突变级数之和除以n, 而不用归一公式计算。

2 山东9个主要城市总体评价

2.1 缺水程度初始综合值和调整综合值的计算

建模所用山东9个重点城市为济南 (J) 、青岛 (Q) 、淄博 (ZB) 、东营 (D) 、烟台 (Y) 、潍坊 (W) 、济宁 (JN) 、泰安 (T) 、枣庄 (ZZ) 。

借鉴洪灾危险程度的划分, 将缺水程度进行等级划分, 见表1;

以1995年山东省9个重点城市的数据资料为基础 (源自1995年山东统计年鉴) , 评价其1995年水资源紧缺程度, 结果见表2。

分析评价结果, 计算出的综合值将在0到1之间变化, 综合评价值越大, 则城市的缺水程度越高, 反之则越低。

据图, 山东9城市缺水程度水平属轻险, 其中东营的缺水程度最高, 其次为淄博、济南, 而潍坊水资源相对最丰富。

2.2 PLS回归模型

建立山东省缺水程度L与Ci (i=1.2…5) 指标因素之间的PLS模型, 得到影响L的最主要因素, 从而改善山东缺水状况。

主成分分析:据两个主成分的散点图, 样本点均落在T2椭圆内, 故模型无特异点, 不需要剔除数据, 模型判断参数R2Y (cum) =0.992, 表明模型拟合数据较好, 见图2。

C1、C2、C4、C6、C8、C11的相关系数与实际相反, 原因上述指标在山东9个重点市所占指标比重相差较大, 故剔除不考虑。C9与L成负相关, 且相关系数最大, 说明水资源利用率对山东缺水程度影响最大, 水资源利用率提高, 缺水程度将大幅降低。

结语

(1) 山东9个重点城市的缺水程度水平L较接近, 均属于轻险, 其中东营缺水程度最高L=0.480, 淄博、济南次之, 而潍坊缺水程度相对较低, L=0.396。

(2) 水资源利用率) 和单位GDP需水量对缺水程度L影响最大, 降低缺水程度最好措施为增加研究区水资源利用率与降低单位GDP的需水量。

(3) 突变理论的评价方法的特点在于, 重要性的确定量化是根据其影响因素之间的关系采用归一公式进行的, 避免了带有主观性的权重赋值, 而且计算公式简单明了。

(4) PLS模型可以在数据较少时建立回归模型, 避免变量间的多重共线性。

参考文献

[1]都兴富.突变理论在经济领域的应用[M].成都:电子科技大学出版社, 1994.

[2]改进的突变评价法在旱灾风险评价中的应用[M].上海交通大学出版社, 1987.第一章.

[3]Poston T, Lan Stewant.Catastrophe theory and application[M].Lord:Pitman, 1978.Chapter1

PLS模型 第3篇

随着移动互联网市场迅速崛起,移动通信技术渐趋成熟,手机已经成为人们工作和生活的必须品4G时代的到来,移动终端技术完成使手机银行与其他电子银行手段一起成为银行服务体系中的重要参与主体。然而,由于手机银行用户多为个人客户,而个人客户的需求、特征以及各方面的喜好都大相庭径,因此满足各类客户的需求,提高个人客户的忠诚度成为商业银行面临的重要问题。

因此,本文选择手机银行个人客户忠诚度作为研究视角,在研究以往相关文献的基础上,总结出手机银行个人客户忠诚度的6大影响因素结合实际调研数据进行了实证研究。

二、客户忠诚度理论与研究假设

(一)客户忠诚度理论

对客户忠诚的研究最初始于对顾客行为的测评研究。顾客行为测评研究认为高频度的购买是客户忠诚最直接的反映,客户忠诚本身作为一种态度难以测量,但顾客的行为是顾客态度最直接的衡量标准。Richard Oliver(1992)将忠诚定义为,在未来持续购买某项产品或服务的内在倾向和义务,而不受外部环境变化和营销活动等影响。之后,Oliver(1999)等对忠诚度定义进行了补充,消费者重复购买某一产品或服务,尽管面临的一些情境发生改变,也不会影响顾客对该产品或服务未来持续性使用的意愿和行为。Griffin(1995)将态度和行为两者相结合来解释客户忠诚,他指出客户忠诚不仅是一种重复购买行为,而且反映为一种态度取向,因此他将客户忠诚分为忠诚、潜在忠诚、惰性忠诚和不忠诚4种状态。Gremler和Brown(1996)依据客户忠诚程度的深浅进行划分,将客户忠诚度分为三个层次:行为忠诚、意向忠诚和情感忠诚。

国内对客户忠诚度理论的研究始于20世纪90年代末,马俊(1993)较早对客户忠诚度理论进行探讨分析,从企业厂商的角度出发,提出增强客户忠诚度的策略。严浩仁(2000)在研究顾客满意度指标(CSI)的基础上,提出了符合我国产业现状的顾客满意度测评体系,廖公仆(2005)将客户忠诚度理论引入工业品企业,构建了涵盖产品质量、转换成本、客户服务、客户交流和关心信任6个影响因素的客户忠诚度影响模型。乔均等(2007)在ECSI和CCSI客户忠诚度模型的基础上构建了商业银行个人客户忠诚度评价模型。孙树龙(2010)将客户忠诚度模型引入中国移动通讯行业。邓爱民等(2014)将客户忠诚度理论引入网络环境,构建了网络购物客户忠诚度模型。

(二)研究假设

通过相关文献,本文得出6个影响手机银行个人客户忠诚度的主要因素,分别是服务质量、关系信任、转换成本、银行形象、感知价值、顾客满意度。

服务质量指的是一项产品的服务能够满足被服务者的程度,可从可靠性、保证性、移情性、响应性以及有形性5个维度进行度量。关系信任分为可信性和善意性两个方面的含义。转换成本通常是指顾客因转换某项产品或服务的使用而需承担的成本。在本文即可定义为客户从一家手机银行转换到另一家手机银行所需要承担的所有成本。银行形象包括银行的规模、知名度、社会荣誉等方面。感知价值是指消费者在对比某项产品或服务获得与付出之间的差距,获得比付出多,说明消费者感知的价值更多。顾客满意度反映了顾客对某种产品或服务所产生的感受与自己的期望所进行的对比情况。针对以上分析,文章提出如下假设:

H1服务质量对手机银行个人客户忠诚度以及感知价值均有有显著的正向影响;

H2关系信任对手机银行个人客户忠诚度有着显著的正向影响;

H3转换成本对手机银行个人客户忠诚度有一定的正向影响;

H4银行形象对手机银行客户忠诚度有一定的正向影响;

H5感知价值对手机银行客户忠诚度有一定的正向影响;

H6顾客满意度对手机银行个人客户忠诚度有显著的正向影响。

三、实证研究

(一)模型提出

针对上文的分析与假设,文章以服务质量、转换成本、关心信任、银行形象作为外生潜变量,以顾客满意度、客户忠诚度和感知价值作为内生潜变量,构建如下基本结构模型:

注:其中“→”表示对其所指向方框内的因素有影响。

(二)样本采集

文章样本数据主要来自2014年6月至9月在安徽、江苏、上海等华东和华中地区的书面调研与网络调研,共发放问卷600份,收回问卷578份。经过对问卷结果进行整理分析,并剔除无效问卷,最终得到有效问卷547份。问卷调查题项均采用Likert五级量表方式表达,将顾客的态度分为5个层次进行打分,1~5分的含义分别为:非常不同意、基本同意、一般、不太同意、完全不同意。

观察调研数据可知,各项测量指标的得分均值基本在3~4之间,可见客户对测量指标对应的评价介于“一般”和“基本同意”之间,因此,在影响手机银行客户忠诚度的各因素方面,仍有较大提升空间。其中,对交易安全项指标和向亲友推荐使用手机银行指标项的评价测量均值在3以下,即介于 一般”和“不太同意”之间,说明在手机银 行交易的安全性和向他人推荐的忠诚度两个方面存在较为严重的问题,亟待提出解决途径。

(三)变量设置

本文在借鉴国内外关于客户忠诚度研究成果的基础上,针对手机银行自身特点共设置4个外生变量和3个内生变量,并在研究和分析各潜在变量的含义和特征基础上设置了30个测量指标,分别对各个潜在变量进行测量分析,并构建手机银行个人客户忠诚度量表(见表1)。

(四)模型假设检验

文章选用SmartPLS3.0软件得到模型的整体路径系数分析图,如图2所示:

1. 模型外部结构评价。

PLS方法大多采用平均萃取方差(AVE)对模型的外部结构进行评价。平均方差抽取量(AVE)表示相较于测量误差变异量的大小,潜在变量构念所能解释指标变量变异量的程度。其数学形式可以表示为:

其中,ρ表示平均方差抽取量,λ表示指标因素的负荷量,即观察变量在潜在变量上的标准化参数,θ表示指标变量的误差变异量。

经测算,服务质量、关系信任、转换成本、银行形象、感知价值、顾客满意度、客户忠诚度的AVE值分别为0.465、0.811、0.664、0.776、0.584、0.847、0.834。只有服务质量的AVE值略微小于0.5,而其他变量的AVE值均大于0.5,且最高值达到0.847。说明潜在变量的方差信息利用率较大,从而整个外部模型估计效果比较理想。

2. 模型内部结构评价。

对于模型的内部结构,PLS法主要通过多元相关平方(R2)来进行评价。指标变量的R2表示指标变量的方差能被其基底潜在变量解释的程度,无法解释的部分即为测量误差。测算3个内生变量顾客满意度、客户忠诚度、感知价值的R2值分别为0.502、0.568、0.187均接近或超过0.2的水平,说明模型的内部结构较为理想。

3. 参数的显著性检验。

PLS法通常采用Bootstrapping方法对模型中参数的显著性进行检验。Bootstrapping方法的实现主要通过对原样本进行有放回的抽样,抽取n次组成一个新的样本,重复操作得到多个新样本,利用Bootstrapping对新样本估计值进行计算,得到样本的一个估计值分布,从而得到抽样分布的大致情况。

由检验结果可以得出,Bootstrapping检验中抽取的样本估计值与原始样本的估计值相差无几,说明两者携带的变异信息基本保持一致。通常来说,参数的T检验值大于2表示通过显著性检验。本研究的外部模型因子载荷系数的T检验值均大于2且大多达到很高的水平。说明外部模型的因子载荷系数均过显著性检验,且其估计值都具有较高的精确度,同时说明该模型的潜变量对其观测变量具有很好的解释能力。

(五)模型的估计结果

在实际调研数据的基础上,采用PLS法对模型进行参数估计,经过7步迭代后参数收敛,且模型通过R2检验和Q2检验,得到模型的非标准化路径回归系数以及结构模型和测量模型:

1. 结构模型。

从结构模型可以看出:

手机银行的服务质量对感知价值有着显著的正向影响,相关系数达到0.432。服务质量与顾客满意度之间也有着较为显著地影响作用,相关系数为0.389。因此验证了假设H1。而服务质量与客户忠诚度之间的相关系数为0.182,可以进一步推断出服务质量通过影响客户的感知价值和满意度,从而间接地对客户忠诚度产生影响。

关系信任对客户忠诚度,银行形象、感知价值对顾客满意度和忠诚度均有着正向的相关性,其中感知价值的相关系数较高,分别为0.249和0.287,验证了假设H2、H4和H5。因此,要提高手机银行的客户忠诚度,需要提高客户的感知价值,从而追溯到服务质量的提升上。

手机银行的转换成本对其客户忠诚度有着正向的影响,而与顾客满意之间呈现一定的负相关,但相关系数低于0.2的水平,因此转换成本对顾客满意度和客户忠诚度并没有显著的影响作用。但是,盲目增加手机银行的转换成本会对手机银行的顾客满意度造成一定的负面影响,从而对客户忠诚度也会造成一定程度的削弱。另外,顾客满意度对客户忠诚度有正向影响,相关系数为0.154,小于0.2,显著性较弱。

2. 测量模型。

由测量模型可以看出:

各潜在变量与其相对应的测量变量之间的相关系数基本处于较高水平,说明文章选取的观测指标可以较准确衡量和体现潜在变量的特征。对于服务质量因素来说,相关系数较高的观测指标为2和5,说明提高服务质量的关键因素在于加强手机银行的操作便捷性、支付安全性以及个性化服务。对于关系信任因素,相关系数较高的观测指标有X10和X11,也就是要在保证客户利益的前提下进一步完善手机银行所提供的服务,并且针对不同受众提供适合的服务。对于转换成本因素,X13和X14的相关系数较大,从而准确设定手机银行的收费标准和加强手机银行的易操作性技术处理方面的工作较为重要。手机银行所对应的银行形象也会对客户行为产生较大影响,尤其是银行的资金实力、信誉口碑及其所提供的服务特色。影响客户感知价值的因素主要在于手机银行所能带来的便捷性。因此,需要在发挥手机银行本身所具有的方便、快捷等优势的基础上,开发更多的快速金融服务产品。

四、结论与建议

研究表明,服务质量和感知价值因素对手机银行个人客户忠诚度的影响作用最为显著,同时服务质量也对感知价值有较大正向影响。其中,最能体现服务质量特征的因素是手机银行的操作便捷性、支付安全性以及个性化服务。关系信任和顾客满意度对手机银行个人客户忠诚度的提升起到一定积极作用。维持关系信任首先要保证客户利益与取得与客户信任。良好的银行形象和口碑信誉也对客户的使用意愿和重复使用行为有较大正向影响。转换成本对手机银行个人客户忠诚度有正向的影响作用而对顾客满意度有一定负向影响。客户更看重所需耗费的额外金钱成本与时间成本,应将转换成本控制在适当水平,在提升客户忠诚度的同时维持顾客满意。根据以上结论,文章提出以下建议。

第一,寻找新的市场定位,突出特色服务,抢占市场先机。只有提供的服务贴近用户才能得到更多用户的青睐。在未来手机银行业务发展过程中,银行应该充分发挥资产配置作用和金融平台的优势,对所有通过银行平台代销的金融产品进行整合。通过手机银行掌握用户资产,并根据用户资产配置,利用丰富的理财规划经验对用户资产进行科学规划,以发挥手机银行的特色,让用户形成“理财规划找手机银行”或者某些金融服务只能通过手机银行完成的理念,使手机银行形象逐渐深入人心。以手机银行特色服务作为突破口,抢占市场先机。

第二,运用智能技术,提升服务质量与客户体验。手机银行依托技术的更新换代是推动手机银行用户规模增长的主要驱动力。运用高端智能技术优化手机银行支付平台,在确保交易安全性的基础上提高手机银行操作便捷性,开发个性化业务,努力提升手机银行服务质量。同时,在互联网时代,由于资源有限,银行无法为所有用户提供同样优质的服务,且绝大多数用户对个人资产情况并不完全掌握。因而,可以通过数字技术进行一次性用户资料输入,并保存在手机银行客户端。银行后台系统在掌握用户在同一金融机构甚至多个金融机构的资产总和的基础上推算未来任意时点该用户的资产规模,对现有理财产品进行优化配置,帮助用户完成理财目标。这样既可以辅助大客户进行资产规划,也可以使银行用户服务渗透到普通用户中去,加之操作简便,使用门槛低,能够极大提升手机银行的用户体验。

PLS模型 第4篇

汽车排气中的NOx和最高燃烧压力是发动机排放标定控制的重点。影响NOx排放和最高燃烧压力的参数众多,排放标定的工作量巨大。利用较少的试验数据建立一种预测精度高、物理意义明确、形式简单、计算量小的NOx排放和最高燃烧压力预测模型,可以大幅减少试验工作量,节省大量的人力、设备和财力资源,并可模拟预测任意工况的NOx排放和最高燃烧压力,以满足ESC法规中的NOx抽查。

多元回归分析在数据分析中得到了广泛应用[1],但在自变量集合中有严重多重相关性时可能得到错误的预测模型,而发动机控制参数和性能参数又大多相关。文献[2]提出偏最小二乘回归方法(partial least squares,PLS),在解决自变量相关性等问题上取得了重要进展。相对于神经网络等其他非线性辨识方法,该方法简单、物理意义明确、解释性强。目前这种方法在经济统计、化学和化工分析、生物工程及仪器仪表等领域已有较好的应用[3,4,5,6,7],但在内燃机学科的应用尚未见报道。本文简要介绍了偏最小二乘回归法的基本原理,探讨了模型的优化方法,并对一台高压共轨增压中冷柴油机进行NOx和最高燃烧压力建模和分析。

1 偏最小二乘回归算法的原理

1.1 建立偏最小二乘法模型的基本步骤

设有因变量集合y=(y1,y2,…,yq)及自变量集合x=(x1,x2,…,xp),因各自变量量纲不同,把x、y转化为中心标准化变量集合E=(X1,X2,…,Xp),F=(Y1,Y2,…,Yq)。PLS方法首先提取一个成分t1,它一方面能最大限度地提取自变量集合E中的有用信息,即t1的方差尽可能大;另一方面t1与因变量F的相关性最大,即

undefined

式中,t1=Ew1,w1为矩阵E′FF′E的最大特征值λ1的标准特征矩阵,‖w1‖2=1;cov(F, t1)为F与t1的协方差;var(t1)为t1的方差;r(t1,F)为t1与F的相关系数。用拉格朗日算法求解该问题的最优解,分别作E、F关于t1的普通线性回归。

式中,P1、r1为回归系数,P1=Et1/‖t1‖2,r1=F′t1/‖t1‖2;E1、F1为回归残差矩阵。以E1、F1取代E、F重复上述步骤提取第2个PLS成分t2,重复提取m个PLS成分t1,t2,…,tm。已证明t1,t2,…,tm之间正交,即把相关变量集合E变换成了独立变量集合。最后分别建立E、F关于t1,t2,…,tm的PLS模型。

E=t1P1′+t2P2′+…+tmPm′+Em (4)

F=r1t1+r2t2+…+rmtm+Fm (5)

由于t1,t2,…,tm为X1,X2,…,Xp的线性组合,所以F也可写成X1,X2,…,Xp的线性组合,标准化方程为

F=B1X1+B2X2+…+BpXp+Fm (6)

式中,B为回归系数矩阵。转化为实际参数为

y = b0 + b1 x1 + b2 x2 + ... + bpxp +e (7)

式中,b为回归系数矩阵;e为预测值的残差矩阵。

从上述建模过程看出,PLS实质上就是从线性相关的自变量集合中顺序提取若干线性无关的变量,这些变量最大程度上代表自变量与因变量相关的信息,再用LS法进行多元线性回归分析。

1.2 成分个数的选取方法

本文采用交叉舍一的方法计算模型的预测标准差,其要点如下: 以一个因变量y为例,假定目前要提取h个成分,首先用舍去第i个样本点后的所有样本点集合(共含有n-1个样本点),用h个成分拟合一个回归方程;然后把刚才排除的样本点i代入前面拟合的回归方程,得到因变量y在样本点i上的拟合值yh(-i)。对于每一个样本点i=1,2,…,n重复上述过程,则可定义采用h个成分时因变量y预测值的估计标准差。

Rh的大小反映了因变量y的预测误差。如果模型不稳定,去除某一个样本点后的模型与全样本点的模型差异将变大,则其预测偏差必然变大,即Rh变大。一般情况下随着h增大Rh会减小,当减小不明显或增加时,再增加成分数将造成过度拟合,虽然拟合误差可能减小,但可能使得预测误差增加。所以,应以Rh最小或接近最小作为最佳成分数判断的原则。

1.3 自变量的选取和回归模型的优化方法

1.3.1 不显著自变量的判断方法

有些自变量对因变量起主导作用,有些自变量对因变量不显著反而造成模型的预测误差变大[8]。本文采用如下方法确定回归系数的不确定区间。

(1) 从总样本中去除第i个样本,计算出每个自变量xj用PLS方法回归的系数bj(-i),全部样本点时用PLS方法计算的回归系数为bj。分别去除样本点i=1,2,…,n,计算回归系数bj的估计标准差[9]

undefined (9)

(2) 取学生分布t0.05,n-1倍的标准差t0.05,n-1σbj作为回归系数bj的不确定度极限。

(3) 如果回归系数bj的取值极限区间包含零轴,因为回归系数bj的符号不确定,可以判定该自变量参数不显著。定义参数kj代表bj的不显著程度

kj=σbj/bj (10)

kj越大,bj就越不显著。

1.3.2 自变量的优选方法

首先考虑全部可能的自变量进行PLS回归分析,然后同时去除全部不显著变量后再进行回归分析。但这种方法容易丢失重要的自变量,不能得到最佳的预测模型。本文采用如下步骤优化模型: (1) 选择与因变量有关的自变量因素,先进行主元素的优化筛选;(2) 去除最不显著变量,原则是去除该变量后模型最佳成分数的Rh值降低或不变,重新回归计算;(3) 在自变量元素优化后在此基础上增加二次项和交互项,重复上述过程优化模型。

1.4 特异样本点的判断

试验过程中,由于种种原因可能产生各种测量误差,尤其是一些粗大误差是不可容忍的,需剔除一些特异样本点。定义第i个样本点对成分向量t1,t2,…,tm的累积贡献率为

undefined (11)

式中,thi为去除第i个样本点回归得到的t值;sh2为成分th的方差。Tundefined过大导致对成分构成的贡献过大,则该点的存在有可能使分析存在偏差。

文献[10]证明,当undefined时,可以认为在95%的检验水平上,样本点i对t1,t2,…,tm的贡献过大,这时可以认为样本点i是特异点。在m=2时,可以在t1-t2平面图上画出临界椭圆, 在该椭圆外面的点就是特异点。

2 NOx排放及最高燃烧压力PLS模型分析

2.1 自变量的选取

生成NOx的三要素是高温、富氧和高温富氧持续时间。在滞燃期内形成的可燃混合气的量和燃烧速度决定了最高燃烧温度,而供油提前角的影响明显;共轨系统的轨压决定了燃油的雾化程度,进而影响在滞燃期内形成的可燃混合气的数量;负荷表征了最高燃烧温度和高温持续时间,扭矩、循环喷油量、过量空气系数等都代表了负荷因素,其中循环喷油量是根据电控信号脉宽计算的喷油量;燃油消耗率与NOx排放有显著关系;试验系统中的进气阻力、排气阻力、中冷后温度等对排放也有很大影响,但这些参数主要取决于负荷因素,也反映在燃油消耗率因素中,因而不再考虑。本文选取扭矩、轨压、喷油提前角、循环喷油量、燃油消耗率和过量空气系数作为自变量,为减小变量的异形度,燃油消耗率和过量空气系数都取倒数。

一台高压共轨增压中冷柴油机在1 600 r/min时的试验数据见表1和表2。

表1的样本为标定样本,表2的样本为检验样本。其中,x1~ x6为自变量;NOx排放y1和最高燃烧压力y2为因变量。试验时排气阻力阀、进气阻力阀和中冷器冷却水流量按标定工况调整后不变。主要试验设备见表3。

2.2 NOx排放和最高燃烧压力的PLS回归模型

用MATLAB编写了PLS及分析程序。表1和表2中的数据经中心标准化处理后转化为标准化数据,然后进行PLS回归分析,用标定样本的Rh和检验样本的Rt进行模型评价。下文用xj表示原始变量,Xj为xj的中心标准化变量。为了提高模型的预测精度和改善模型的鲁棒性,模型全部为自变量主元素和增加二次项及交互项的模型,并进行逐步优化。

2.2.1 NOx排放的回归优化模型

NOx排放优化模型的最佳成分数为3,Rh为14.0×10-6,Rt为15.0×10-6,模型的预测性能很好。图1为自变量、因变量与成分t1、t2的相关系数图。图2为自变量、因变量与成分t1、t3的相关系数图。

从图1中可看出,t1成分可以解释y变量达87.1%,解释明显。而构成t1成分的主要因素依次为x5、x2、x1和x4,其中x5与y最为接近即相关性最强,而X3X5(6)与y的相关性最小。而t2成分可以解释y变量11.5%,解释也较大。而构成t2成分的主要因素为喷油提前角x3,其他因素都不明显。由于对t1贡献最大的燃油消耗率倒数x5与喷油提前角x3密切相关,实际上喷油提前角x3对NOx排放的贡献更重要。

从图2中可看出,t3成分可以解释y变量1.1%,解释较小。而构成t3成分的主要因素为喷油提前角的二次项Xundefined (7)和喷油提前角与燃油消耗率倒数的交互项X3X5(6),其他因素都不明显,t3可以理解为NOx排放在t1和t2中未能解释的内容。

NOx排放的PLS回归优化模型为

y1=-728.3+0.051 2x1+4.41x2+34.4x3+

0.391x4+77.6x5+30.9X3X5+7.91Xundefined (12)

从式(12)看出,NOx排放与扭矩x1、轨压x2、喷油提前角x3、循环喷油量x4、燃油消耗率倒数x5全部正相关。扭矩及循环喷油量越大,即负荷越大,最高燃烧温度和持续时间都越高,因而NOx排放越高;轨压越高,燃油雾化就越好,因而初期燃烧速度和最高燃烧温度和NOx排放越高;喷油提前角越大,滞燃期则越长,因而NOx排放越高;燃油消耗率倒数增加意味着初期燃烧速度加快,最高燃烧温度提高导致NOx排放增加;喷油提前角和燃油消耗率倒数都与NOx排放正相关,且二者之间也正相关,所以二者的交互项也与NOx排放正相关;喷油提前角的平方项与NOx排放正相关,表明随着喷油提前角增加NOx排放增加的速率加大。式(12)各自变量系数的符号物理意义明确。

2.2.2 最高燃烧压力的PLS回归优化模型

最高燃烧压力的优化模型其最佳成分数为4,Rh为0.144 MPa,Rt为0.173 MPa,预测性能很好。图3为自变量、因变量与成分t1、t2的相关系数图。图4为自变量、因变量与成分t3、t4的相关系数图。

从图3可看出,t1成分可以解释y变量达95.7%,解释非常明显。而构成t1的成分与因变量1最为接近的变量依次为x1、x4、x2、x6和x5,其中x1和x4与最高燃烧压力最为接近,即相关性最强;而X1X5(7)和X3X6(8)与最高燃烧压力的相关性最小。而t2成分可以解释最高燃烧压力变量3.9%,解释也较大。而构成t2成分的主要因素为扭矩与燃油消耗率倒数的交互项X1X5(7)及喷油提前角x3,其他因素都不明显。从图4可看出,t3成分可以解释y变量0.15%,解释较小。而构成t3成分的主要因素为喷油提前角x3和供油提前角与过量空气系数倒数的交互项X3X6(8),其他因素都不明显。而t4成分可以解释y变量0.13%,而构成t4成分的主要因素为喷油提前角x3和轨压x2,其他因素都不明显。虽然成分t3和t4对y的解释都较小,但包含t3和t4时的Rh值分别比仅包含t1和t2时减小21.7% 和47.1%,预测能力大幅提高。回归模型为

y2=-7.00+0.001 22x1+0.029 1x2+0.203x3+0.011 2x4+0.924x5+5.46x6+0.783X1X5+0.157X3X6 (13)

x1~ x5的符号与式(12) 模型相同,表明NOx排放与最高燃烧压力也正相关。x6提高(负荷提高),因而最高燃烧压力提高;X1、X5都与最高燃烧压力正相关,且X1提高,燃油消耗率降低(X5提高),则X1与X5之间也正相关,所以交互项X1X5与最高燃烧压力正相关;X3和X6都与NOx排放正相关,但X3与X6相关性不大,X6增加,过量空气系数降低(负荷增加),在提前角不变的前提下实际最高燃烧压力提高,但由于高负荷时燃烧过于滞后,导致最高燃烧压力相对降低,因此高负荷时的提前角应有所增加,表明X3与X6弱正相关,则交互项与最高燃烧压力弱正相关,式(13)中的回归系数也较小。

2.3 回归模型精度分析及讨论

2.3.1 NOx排放PLS模型

图5为NOx排放PLS模型式(12)交叉舍一样本预测值yv与测量值ym的关系。其回归方程为

yv = 4.8 + 0.991 4ym (14)

相关系数为0.997 5,表明式(12)模型非常稳定可靠。

图6为检验样本用式(12)模型的预测值yt与测量值ym的关系。其回归方程为

yt = 4.3 + 0.992 8ym (15)

相关系数为0.997 0,式(12)模型检验样本点的预测值与测量值非常接近,回归模型预测性能很好。

图7为NOx排放PLS模型标定样本交叉舍一预测偏差和检验样本的预测偏差。绝大多数样本的预测偏差小于25×10-6,标定样本32C和35C的交叉舍一预测偏差较大,分别为-37.4×10-6和-30.8×10-6。

图8为各标定样本在t1-t2平面的样本空间。如图8所示,样本32C为同等负荷下最低轨压、最大喷油提前角样本,而样本35C为同等负荷下最高轨压、最大喷油提前角样本,这2个样本都是极端样本,因而其交叉舍一预测值的偏差较大。

检验样本29T、34T和38T预测值偏差较大,样本29T与相同扭矩、相同喷油提前角的标定样本31C和检验样本32T相比喷油量过大,与相同扭矩、相同轨压的检验样本16T、20T、25T和34T相比喷油量较大,判断样本29T的喷油量测量数值过大,导致该样本模型预测NOx排放值较大,因而预测偏差较大。样本34T和38T都是在同等扭矩下的轨压最低、喷油提前角最大,是边界极端样本,因而预测偏差较大。

2.3.2 最高燃烧压力PLS模型

图9为最高燃烧压力PLS模型式(13)交叉舍一样本预测值yv与测量值ym的比较。回归方程为

yv = 0.001 4 + 0.997 7ym (16)

相关系数为0.999 1,表明式(13)的模型极其稳定,交叉舍一样本点的预测值与测量值非常接近。

图10为检验样本用式(13)的预测值与测量值的关系。yt与ym的回归方程为

yt = 0.196 + 0.976 2ym (17)

相关系数为0.989 8,式(13)模型检验样本点的预测值与测量值非常接近,回归模型预测性能优良。

图11为最高燃烧压力PLS模型的交叉舍一预测偏差和检验样本的预测偏差。从图11可看出,绝大多数样本的预测偏差小于0.2 MPa。标定样本30C、25C和36C的交叉舍一预测偏差较大。标定样本30C与相同扭矩、相同轨压的样本14T、18T、23T和35C相比及与相同扭矩、相同喷油提前角的样本27C和28T相比,其最高燃烧压力测量值相对较小,因此预测偏差较大。标定样本25C是最高扭矩下轨压最小、喷油提前角最小样本,是一个极端样本。标定样本36C是相同扭矩下轨压最小、喷油提前角最大的极端样本。

检验样本38T和2T的预测偏差较大。与相同扭矩和喷油提前角的样本39C、39T相比,检验样本38T的轨压最低但测量的最高燃烧压力却最大,因而该样本的最高燃烧压力测量值明显偏高。检验样本2T与其他相同扭矩和喷油提前角的样本1C、1T相比,其轨压最高而最高燃烧压力最低,表明该样本的测量值偏低。

本文NOx排放和最高燃烧压力的PLS回归模型物理意义明确,仅用一半标定数据得到的PLS模型其交叉舍一预测精度都非常高,另一半检验样本在模型中的预测精度也非常高,能够满足标定工作的要求。偏差符合随机分布特征,表明模型不存在系统误差。

样本中极个别样本的预测偏差较大,这是因为部分参数测量误差较大,或样本处于样本空间的极端位置。

2.4 模型应用

图12为1 758 N·m工况不同轨压、喷油提前角时NOx排放预测模型和最高燃烧压力预测模型图。从图12中可以看到,在NOx排放和最高燃烧压力一定限值下轨压和喷油提前角参数的许可值,从而可以根据燃烧目标值校正喷油提前角、轨压等参数。

3 结论

(1) 应用PLS方法建立了一台高压共轨增压中冷柴油机NOx排放和最高燃烧压力的回归模型,模型形式简单、物理意义明确,模型合理有效。用交叉舍一方法和检验样本方法验证证明预测精度很好,可以大幅降低发动机NOx排放标定工作量和最高燃烧压力标定工作量。

(2) 本文提出的PLS回归变量选择和模型优化方法实用、可靠,可用于PLS回归模型的优化。

参考文献

[1]杨靖,潘朝晖,周剑.提高智能排气分析仪精度的研究[J].内燃机工程,2004,25(2):75-78.Yang J,Pan Z H,Zhou J.Study of intelligent emissionanalyzer’s precision[J].Chinese Internal Combustion EngineEngineering,2004,25(2):75-78.

[2]Wold S,Ruhe A,Wold H,et al.The collinearity problem inlinear regression,the partial least squares(PLS)approach togeneralized inverses[J].SIAM Journal on Scientific andStatistic Computing,1984,5(3):735-743.

[3]阮桢,胡德金,许黎明,等.内燃机机油泵工作特性数学模型的分析与研究[J].内燃机工程,2006,27(3):50-53.Ruan Z,Hu D J,Xu L M,et al.Analysis and research onmathematical model of oil pump’s operating characteristic[J].Chinese Internal Combustion Engine Engineering,2006,27(3):50-53.

[4]Carrascal L,Galvan I,Gordo O.Partial least squaresregression as an alternative to current regression methods usedin ecology[J].Oikos,2009,118(5):681-690.

[5]Javier G,Daniel P,Rosario R.A robust partial least squaresregression method with applications[J].Journal ofChemometrics,2009,23(2):78-85.

[6]Opiyo S O,Moriyama E N.Protein family classification withpartial least squares[J].Journal of Proteome Research,2007,6(2):846-853.

[7]常英杰,陆宪忠,王世龙,等.基于偏最小二乘回归的发动机排气分析仪线性化研究[J].机械工程学报,2011,47(10):76-81.Chang Y J,Lu X Z,Wang S L,et al.Study on the linearizationof analyzer for engine exhaust based on partial least squares[J].Chinese Journal of Mechanical Engineering,2011,47(10):76-81.

[8]Roy P P,Roy K.On some aspects of variable selection forpartial least squares regression models[J].QSAR andCombinatorial Science,2008,27(3):302-313.

[9]Martens H,Martens M.Modified jack-knife estimation ofparameter uncertainty in bilinear modelling by partial leastsquares regression(PLSR)[J].Food Quality and Preference,2000,11(1-2):5-16.

基于PLS的变权重组合预测方法 第5篇

1969年, Bates和Granger首次对组合预测方法进行了系统的研究, 其研究成果引起预测学者们的重视[1]。文章认为选择单个预测是不太明智的, 因为被放弃的预测结果中包含了一些有用的、独立于被选择的预测的信息。正是由于这些信息使得组合预测的结果往往优于单个预测。

所谓组合预测就是设法把不同的预测模型组合起来, 综合利用各种预测方法所提供的信息, 以适当的加权平均形式得出组合预测模型[2]。组合预测最关心的问题就是如何求出加权平均系数, 使得组合预测模型更加有效地提高预测精度。组合预测在国外被称为Combination Forecasting或Combined Forecasting, 在国内也被称为综合预测等。

近年来, 国内外学者在组合预测方法研究方面取得了很多研究成果, 对国内外文献分析研究, 可以看出关于组合预测的研究呈现以下特点:

提出多种准则下的组合预测模型, 对组合预测模型的求解和有效性的实证研究较为深入, 但缺乏多种准则框架下的组合预测模型有效性的理论研究成果。目前, 国内外学者主要提出以下一些组合预测方法:最小方差方法、无约束最小二乘方法、约束最小二乘方法、Bayes方法、基于不同准则与范数的组合预测方法、递归组合预测方法等。

对组合预测方法有效性的理论研究已经引起学术界的关注。文献[3]针对无非负约束的以误差平方和达到最小的组合预测模型提出了优性组合预测的概念, 并利用组合预测绝对误差信息矩阵的性质判断简单平均方法是优性组合预测的条件;文献[4]研究了该模型组合预测误差的界;文献[5]提出了基于预测有效度的组合预测模型, 并给出组合预测权系数的线性规划的求解方法;文献[6]针对此模型探讨其有效性。

目前研究较多的组合预测模型的加权系数是不变的。事实上, 假定权系数为常数, 组合预测模型并不能很好地反映预测方法的有效性, 而且会使组合预测精度降低。产生权系数变化的原因有很多, 主要有以下两个:

一是不同的预测方法特点不同, 每种预测方法表现出“时好时坏性”, 反映在权重上表现为“时大时小”。

二是不同的预测者对事物的客观规律的认识有差异, 某种预测方法可能随时间的推移越来越优于其他单项预测方法, 从而导致组合预测权系数的变化。

基于以上两种原因, 学者们提出了变权重组合预测方法。文献[7]提出了变权重组合预测的模型, 假定权重函数是连续的, 依据Weierstrass定理利用多项式一致逼近权重函数, 通过求解逼近多项式的系数矩阵可得权重函数。文献[8]在此基础上, 利用矩阵的行展开和克罗内克积的概念对逼近多项式的系数矩阵进行分析, 并在系数矩阵列满秩的条件下用带约束最小二乘方法对系数矩阵进行估计。但一般情况系数矩阵并不满足列满秩的条件。文献[9]提出了一种估计系数矩阵的构造性算法, 并证明了算法的收敛性。

本文在前人的研究基础上提出了一种基于PLS方法的变权重组合预测方法。

2 变权重组合预测模型

现有n个历史观测数据Y= (Y1, Y2, …, Yn) T, 对每个历史数据Yt (t=1, 2, …, n) 用m个预测模型进行预测, 预测结果分别为ft1, ft2, …, ftm, 由这些预测结果组成的变权重组合模型, 可用下式表示:

式中, ut为随机噪声;gi (t) 为第i个参与组合预测模型t时的权重。为了讨论简便, 假设gi (t) 是连续函数。依据Weierstrass定理, 任意区间[a, b]上的任一连续f (t) 函数皆可由多项式一致通过逼近。而通常gi (t) 满足:0≤gi (t) ≤1, 因gi (t) 可用t的多项式表示:

因而, 式 (1) 可表示为:

式中, G=[g10, …, g1p, …, gm0, …, gmp],

因此, 估计出G即可求得变权重组合预测模型。

3 基于PLS的变权重组合预测模型

由以上分析可知, 如何估计G是求解变权重组合预测模型的关键。模型参数估计应用最广泛的方法是最小二乘法。但是简单最小二乘法在自变量之间存在线性相关性时会导致方法失效。已有研究表明用m个预测模型进行预测, 预测结果f1, f2, …fm, 呈强相关性, 在本文研究的模型中, 显见自变量Ft=[ft1t0, …, ft1tp, …, ftmt0, …, ftmtp]T也呈强相关性, 需要考虑用其他参数估计方法。偏最小二乘 (PLS) 方法能够在自变量存在严重多重相关性的条件下进行参数估计。

变权重组合预测模型的偏最小二乘的建模方法:

因变量Y和 (p+1) ×m个自变量Ft=[ft1t0, …, ft1tp, …, ftmt0, …, ftmtp]T。观测了n个样本点, 由此构成了自变量与因变量的数据表Y= (y) n×1和F= (F1, F2, …, Fn) T, 其中, Ft=[ft1t0, …, ft1tp, …, ftmt0, …, ftmtp]T, t=1, 2, …, n。记X= (x1, x2, …, x (p+1) ×m) , 其中xi+j× (p+1) = (ftjti) n×1。偏最小二乘法在X中提取成分u1 (也就是说u1是x1, x2, …, xp的线性组合) 。在提取成分时, 有如下要求:

(1) u1应尽可能多地携带它们各自数据表中的变异信息。

(2) u1和Y的相关程度能够达到最大。

在第1个成分u1被提取后, 偏最小二乘实施X对u1的回归。如果回归已经达到满意的精度, 则算法终止;否则, 将利用X被u1解释后的残余信息进行第2轮的成分提取。如此反复, 直到能达到一个较满意的精度为止。若最终对X共提取了k个成分u1, u2, …, uk, 偏最小二乘将通过施行y对u1, u2, …, uk的回归, 然后表达成y关于变量{x1, x2, …, xp}的回归方程。将xi+j× (p+1) =ftjti代入回归方程, 得到变权重组合预测模型。

4 实例仿真

为了说明方法的有效性, 采用1975-2004年中国工业总产值进行研究。数据来源于《中国工业经济年鉴》。本文选用4种单个预测方法对中国工业总产值进行预测, 4种单个预测方法分别为简单移动平均法、指数平滑预测法、ARMA方法和数据重心预测法。本文用1975-1994年的20个数据对方法进行训练, 用1995-2004年的10个数据对方法进行测试。

图1为各单个方法预测的结果。用单个预测结果分别乘t0, …, tp (1975年记t=1) 得Ft=[ft1t0, …, ft1tp, …, ftmt0, …, ftmtp]T。其中, 简单移动平均法为ft1, 指数平滑预测法为ft2, ARMA方法为ft3, 数据重心预测法为ft4。本文取p=2。

表1是Ft各列的相关系数, 记X= (x1t, x2t, …, x (p+1) ×m, t) , 其中xi+j× (p+1) , t= (ftjti) n×1, j=1, 2, 3, 4。从表1中可以看出, 各列之间具有很强的正相关性。

采用偏最小二乘回归得到变权重组合预测模型。模型如下:

采用式 (2) 对测试样本进行预测, 并将预测结果与实际中国工业总产值进行比较, 结果如图2所示。

根据文献[9], 选取两个误差指标评价预测的效果。误差的标准差, 即:

平均绝对百分比误差, 即:

其中, yt为指标序列第t时刻的实际观测值。为某预测方法第t时刻的预测值。N为测试样本数。各预测结果的精度比较见表2。

从表2可以看出, 本文提出的变权重组合预测方法的预测精度比各单个预测方法的预测精度有较大改进。同时, 比一般组合预测方法的预测精度也有所提高。

5 结论

本文在前人研究的基础上提出了基于PLS的变权重组合预测方法。文章首先分析了变权重组合预测模型, 而后利用偏最小二乘方法对变权重组合预测的权重函数进行回归, 最后通过实例验证了方法的有效性。

本文考虑了单个预测方法随时间的变化对组合预测的影响。假设权重函数是一个连续函数, 而权重函数是否还有其他形态, 不同的函数形态对预测结果是否有影响, 这些都是需要进一步考虑的问题。

摘要:在目前研究较多的组合预测模型中加权系数是不变的。事实上, 假定加权系数为常数, 组合预测模型并不能很好地反映预测方法的有效性。基于以上事实, 本文提出基于PLS的变权重组合预测方法, 利用偏最小二乘回归方法求得组合预测的权重函数。最后通过实例分析验证了方法的有效性。

关键词:变权组合预测模型,偏最小二乘,蚁群算法

参考文献

[1]Bates J M, Granger C W J, The Combination of Forecasts[J].Operational Research Quarterly, 1969, 20 (4) , 451-468.

[2]Bunn D W.Combining Forecasts[J].European Journal of Operation Research, 1988, 33 (3) :223-229.

[3]傅庚, 唐小我, 曾勇.广义递归方差倒数组合预测方法研究[J].电子科技大学学报, 1992, 21 (5) :545-550.

[4]X W Tang, Z F Zhou, Y Shi.The Error Bounds of Combined Forecasting[J].Mathematical and Computer Modeling, 2002, 21 (2) :58-62.

[5]陈华友.基于预测有效度的组合预测模型研究[J].预测, 2001, 20 (3) :72-73.

[6]陈华友, 侯定丕.基于预测有效度的优性组合预测模型研究[J].中国科学技术大学学报, 2002, 32 (2) :172-180.

[7]谢如贤, 成盛超, 吴健中.变权重组合预测模型的建立与应用[J].预测, 1992, 11 (4) :62-65.

[8]唐小我, 曾勇, 曹长修.变权组合预测模型研究[J].预测, 1993, 12 (3) :46-48.

PLS模型 第6篇

偏最小二乘回归是一种新兴的多元统计数据分析方法, 它于1983年由伍德 (G.Wold) 和阿巴诺 (C.Albano) 等人首次提出。ACSI的创立者——密歇根大学的Fornell教授称PLS回归为第二代回归分析方法。它提供了一种多因变量对多自变量的回归建模方法, 其主要研究焦点是多自变量对多因变量的回归建模。特别是当各自变量集合内部存在较高程度相关性时, 利用偏最小二乘回归进行建模分析, 比逐个因变量多元回归更加有效, 其结论更加可靠, 整体性更强。

1.1PLS分析的建模思路[4]

偏最小二乘回归模型按因变量的个数, 可分为PLS1、PLS2回归模型, 即单因变量、多因变量的偏最小二乘回归模型。由于本文中顾客满意度测评模型涉及的是多因变量对多自变量的问题, 故在此只介绍多因变量的偏最小二乘回归 (PLS2) 建模方法。

设有q 个 因变量{y1, y2, …, yq}和p个自变量{ x1, x2, …, xp }。为了研究因变量与自变量之间的统计关系, 我们观测n个样本点, 由此构成了自变量与因变量的数据表X=[ x1, x2, …, xp]n p= (xundefined) n p和 Y=[ y1, y2, ..., yq]n q= (yundefined) nq其中

Xi= (xundefined, xundefined, …, xundefined) T, Yj= (yundefined, yundefined, …, yundefined) T, i=1, 2, …, p;j=1, 2, …, q。分别在X与Y中提取出成分t1 和 u1 (也就是说, t1 是x1, x2, …, xp的线性组合, u1 是y1, y2, …, yp的线性组合) 。在提取这两个成分时, 为了回归分析的需要, 有下列两个要求:

(1) t1 和 u1应尽可能大地携带他们各自数据表中的变异信息;

(2) t1 和 u1的相关程度能够达到最大。

这两个要求表明, t1 和 u1应尽可能好地代表数据表X和Y, 同时自变量的成分t1 对因变量的成分u1又有最强的解释能力。在第一个成分t1 和 u1提取后, 分别实施X对t1的回归以及Y对u1的回归, 如果回归方程满足预设精度, 则算法停止;否则, 利用X被t1解释后的残余信息以及Y被u1解释后的残余信息进行第二轮的成分提取, 如此往复, 直到精度满足要求为止.若最终对X提取m个成分t1, t2, …, tm。最后通过实施yk对t1, t2, …, tm的回归, 然后, 再转化为yk关于原变量x1, x2, …, xp的回归方程, 其中k=1, 2, …, q, 这样就完成了偏最小二乘回归的建模。

1.2实现PLS分析算法

设X的秩为m。

(1) 求矩阵 (YTS-1XS-1) TYTS-1XS-1的最大特征值λs以及特征向量ωundefined, 将ωundefined单位化为ωundefined求矩阵 (XTS-1YS-1) TXTS-1YS-1的最大特征值μundefined以及特征向量Cs, 将ωundefined单位化为Cundefined。再求:

undefined;

undefined。

(2) 分别求出X, Y关于t1, t2, …, tm的回归方程

X=[ x1, x2, …, xp]np=t1pT1+t2pT2+…+tmpTm+

Xm=X+{ωundefinedpT1+ (Ep-ωundefinedpT1) ωundefinedpT2+…+ (Ep-ωundefinedpT1) (Ep-ωundefinedpT2) … (Ep-ωundefinedpTm-1) ω0mpTm}= (x1, x2, …, xp) n p (aij) p q

Y= [ y1, y2, …, yq]n q=t1rT1+t2rT2+…+tmrTm+

Ym=X+{ωundefinedrT1+ (Ep-ωundefinedpT1) ωundefinedrT2+…+ (Ep-ωundefinedpT1) (Ep-ωundefinedpT2) … (Ep-ωundefinedpTm-1) ω0mrTm}= (x1, x2, …, xp) n p (bij) p q, 其中Ep=diag (1, 1…, 1) 为p阶单位矩阵。

(3) 分别求x*i=xi, y*j=yj关于x*i=xi, i=1, 2, …, p的回归方程

undefined, 则undefined,

i=1, 2, …, p ;j=1, 2, …, q。

(4) 通过以上几步, 就可以求出各变量观测值的对应预测值, 将各三级指标的预测值进行主成分分析, 加权平均求出二级指标的值[6] 。

PLS回归方法不仅有效地提取了对系统解释性最强的综合变量, 剔除了多重相关信息和对模型无解释意义的干扰信息, 而且还有效地降低了系统的阶数, 便于建立模型、解释模型。

2案例分析

本文选用2010年在上海某机场获得的旅客调查问卷数据 (数据由软科学研究所提供) [7], 可以用多因变量的偏最小二乘回归计算其旅客满意度、忠诚度等二级指标的值。其中, 有效调查问卷共109份, 三级指标15个 (如表1所示) 。

下面要讨论的问题是在现有的数据资料下, 如何确定更好的回归, 在许多情况下, 偏最小二乘回归方程并不需要全部的成分 (t1, t2, …, tm) 来进行回归建模, 而是可以像主成分分析一样, 采用截尾的方式来选择前h个成分, (h

3结论和建议

偏最小二乘回归方法可以有效地克服模型中变量的多重相关性和采集样本数不足引起的满意度指数计算失真现象。运用偏最小二乘回归方法对顾客满意度指数进行估计和评析, 能较好地估计出顾客满意度测评模型的合理性, 从而帮助民航企业发现运行中的薄弱环节, 推动服务体制和机制的改革, 帮助企业制定正确的发展战略和市场政策。

摘要:简要介绍了顾客满意度的基本理论和偏最小二乘法的基本原理。根据民航企业特点给出民航旅客满意度的测评模型, 并给出了一个具体例子进行理论模型的验证。计算出了旅客满意度和忠诚度等二级指标的值, 对此做了简要分析。偏最小二乘法能较好地克服了各指标间的多重共线性问题, 通过此方法求得的旅客满意度指数更准确、合理。

关键词:旅客满意度,偏最小二乘法 (ParticalLeast Squares, PLS) 回归,多重共线性,模型

参考文献

[1]田月华, 陈玲玲.顾客满意度述评.东南大学学报 (哲学社会科学版) , 2006;6:59—61

[2]刘宇.顾客满意度测评.北京:社会科学文献出版社, 2003

[3] Fornell G.The American customer satisfaction index:nature, pur-pose, and findings.Journal of Marketing, 1996;60:7—18

[4]王惠文.偏最小二乘回归方法及其应用.北京:国防工业出版社, 1999

[5] Tobias R D.An lntroduction to partial least squares regression ht-tp://support.sas.com/techsup/technote/ts509.pdf.1995

[6]李勇, 赵艳桃.回归计算顾客满意度指数研究.昆明理工大学学报, 2006;311 (1) :115—118.

[7]杨玉兰.航空公司顾客资产的评价建模及提升策略研究[硕士学位论文].南京:南京航空航天大学, 2010:68—76

[8]高惠璇.实用统计方法与SAS系统.北京:北京大学出版社, 2001

PLS模型 第7篇

近红外光谱信息处理是一个典型的高维小样本机器学习问题。在近红外光谱的高维数据中, 光谱噪声的存在对测量的结果一般有较大的影响。1986年Stark提出了近红外光谱仪的信噪比为105, 但由于种种原因, 近红外光谱仪的信噪比很难达到这一要求。为了消除光谱噪声、提取有用信息, 人们提出了平滑处理、位移校正、多元散射校正、标准正态变量校正及矢量归一化、小波滤噪等光谱预处理方法。由于近红外光谱数据的非线性, 许多非线性机器学习算法如PPLS、ANN、SVR等也被应用到近红外光谱预处理中。此外, 通过对光谱数据进行降维, 也能提取有用信息, 如常用的PCA、PLS等线性降维方法。为了在降维的过程中同时提取光谱的非线性信息, 非线性降维无疑是一种有效的选择, Isomap算法是最近提出的一种有广泛应用前景的非线性降维方法。

1算法

类信息能用于降维过程和特征分离。由于Kernel Isomap算法具有样本外特性, 降维时不使用类信息。Kernel Isomap算法在构建邻居图时所有的数据点被同等对待。为了利用类信息, 在构建邻居图计算两点间的欧氏距离时赋以权值, 把这种改进的Kernel Isomap算法称为WKIsomap算法。假如LX为训练集, UX为测试集, 在ix与jx两点间的带权值的欧氏距离定义为 (, ) (, ) * (, ) wed i j=w i j d i j。其中:w (i, j) 是权函数

β是所有两点之间欧氏距离的平均值的平方。

算法:WKIsomap-PLS算法

第一步:在训练集中, 用dw代替de, 应用NIR光谱的kernel Isomap-PLS建模方法及其在血府逐瘀口服液提取过程分析的应用研究中的kernel Isomap算法1求出其低维嵌入M。

第二步:在测试集中, 用dw代替de, 应用NIR光谱的kernel Isomap-PLS建模方法及其在血府逐瘀口服液提取过程分析的应用研究中的kernel Isomap算法2求出其低维嵌入R。

第三步:对光谱矩阵M和性质矩阵Y进行分解。

(2) 式中T为光谱矩阵M的得分矩阵;S为光谱矩阵M的载荷矩阵的转置;E为光谱矩阵M的拟合残差矩阵。 (3) 式中U为性质矩阵Y的得分矩阵;Q为性质矩阵Y的载荷矩阵的转置;F为性质矩阵Y的拟合残差矩阵。

第四步:线性回归。

式中B为回归系数。

第五步:计算预测值。

式中Tscore为测试集的得分矩阵, 可由 (2) 式得出。

2 实验

1) 数据集描述

仪器:北京英贤仪器有限公司的INCE9500MT近红外光谱仪, 光谱测量方式:透射, 光程:2mm, 光谱范围:1000~2200cm, 波长间隔:4.8cm。样本:吉林敖东延边药业股份有限公司的血府逐瘀口服液的在线近红外光谱共163个, 所得提取液光谱如图1所示。

使用高效液相色谱仪SH MADZU-LC-2-10A作为检测仪器, 采用高效液相色谱法 (High Performance Liquid ChromatographyHPLC) 检测样本中组分羟基红花素-A和甘草酸铵的含量。测得样品中羟基红花素-A的含量范围为0.015mg/ml至0.195mg/ml, 甘草酸铵的含量范围为0.066mg/ml至0.192mg/ml。

2) 数据处理

对所得光谱数据, 分别用WKIsomap-PLS、kernel Isomap-PLS、Isomap-PLS与PLS建立回归模型, 以留一法交叉验证均方根误差 (RMSECV) 最小为最优或测试集均方根误差 (RMSEP) 最小为最优及决定系数 (R2) 最大为最优来评价模型。

3 讨论

1) 参数优化及在校正集上建模结果对比

在Isomap算法中有2个可进行调整的参数d和k, 其中d为样本本真维数, k为邻域参数, d和k均为整数, 使用网络搜索法对算法进行优化。在样本数据集中, 所有样本选择样本本真维数d的范围为5到80, 领域参数k的范围为5到70。通过WKIsomap降维, 再用PLS建立回归模型, 并用RMSECV或R2来评价模型。当d=55, k=48时, 羟基红花素-A的RMSECV值最小、为0.0376, R2值最大, 为0.9412;当d=37, k=35时, 甘草酸铵具有最小的RMSECV值和最大的R2, RMSECV=0.0332, R2=0.9569。建立的校正模型见表1。结果显示用WKIsomap-PLS建立的校正模型其性能优于kernel Isomap-PLS、Isomap-PLS与PLS建立的校正模型。

2) WKIsomap-PLS算法和其他算法在测试集上预测性能的对比

在163个样本数据中, 任意选取其中的15个样本作为测试集, 余下的148个样本作为校正集。Kernel IsomapPLS、Isomap-PLS与PLS均采用RMSECV最小为最优或R2最大为最优来建立校正模型, 并用测试集来评价模型, 测试集中均方根误差RMSEP最小其预测性能为最优或R2最大其预测性能为最优。结果见表2。实验结果显示:采用WKIsomap-PLS建立模型的预测性能也优于kernel Isomap-PLS、Isomap-PLS与PLS建立的模型。

4 结语

上一篇:IP传送技术下一篇:养猪政策