
0 引言
云计算是一个热门研究方向,许多企业都相继开发出自己的云端系统进行运算与研究。然而,只要是计算机就会发生错误[1]。在云计算中由于资源的高度动态性和异构性,使云计算平台较传统计算平台出错几率更高[2]。为减少发生错误所造成的损失,需要容错机制保证系统在故障情况下也能持续运行[3]。容错包括故障检测或识别、故障预测和故障恢复3个策略。故障检测或识别通常用于检测故障类型,然后用最合适的方案进行故障诊断。故障预测侧重于根据历史数据预测故障发生的概率,并应用合适的调度策略降低故障概率。故障恢复常用技术有作业复制和检查点[4]。作业复制的优点是不需要重新计算,因为每个作业都会同时分配给不同资源的多个副本,如果其中一个失败,其它作业副本仍然可以处理[5]。但是,这种技术不是很有效,因为作业的副本单独执行可能会占用作业队列。检查点是另一种技术,它要求将运行任务的状态存储在一个已定义的检查点上。如果作业执行失败,则从最后一次保存的状态重新启动任务执行而不是从头开始,这样可极大地节省任务执行时间。
针对云计算容错技术,国内外学者进行了相应研究,提出了许多算法:文献[6]提出了周期任务模型的容错调度算法,但是该模型要求所有任务的周期完全相同,文献[7] 研究了动态实时调度算法与速率单调算法。文献[8]讨论带固定优先级实时调度算法,这些算法均没有考虑系统的容错问题。文献[9]针对当前计算机系统计算和存储资源丰富但并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术。文献[10]提出了一种主备份的容错调度策略用于对宿主机的错误容忍,其使用主从宿主机结构,需要设置多个宿主机作为备份宿主机,对宿主机资源浪费比较严重。文献[11]提出了增强型蚁群优化算法(Enhanced Ant Colony Optimization, EACO),根据任务和资源数量引入动态蒸发速率确定信息素蒸发速率,确保每个资源处理的任务数量很多时蒸发率很小,否则蒸发率会很高,实验结果表明控制蒸发率可有效平衡所有资源的负载。文献[12]提出了基于信任的蚁群优化调度算法(Trust-based Ant Colony Optimization,TACO),旨在尽量减少作业完成时间,平衡所有可用资源的工作量,同时引入面向资源的信任机制处理资源故障问题。文献[13]通过ACS算法和有向无环图(DAG)方法相结合,提出了一种新的云计算故障管理算法,该算法可提供有效的资源分配但没有恢复操作。文献[14]提出基于遗传算法(Genetic Algorithm,GA)的混合蚁群优化算法,以克服元启发式算法不受控制的性质,但会降低云计算分配性能。文献[15]提出在云计算中使用检查点的容错蚁群优化算法(Fault Tolerance ACO,FTACO),有效利用云计算中的动态资源解决故障和负载平衡问题。文献[16]提出了使用蚁群优化算法进行云计算的容错作业调度以满足服务质量需求,该服务使用资源失败率和基于检查点的回滾恢复策略。在任务执行期间,故障索引管理器将不断与检查点处理程序交互以记录资源故障率,每发生一次故障,都将应用回滚恢复技术以节省执行时间,该算法减少了任务总执行时间,提高了吞吐量和平均周转时间。 1 系统建模
蚁群优化算法是一种生物启发式算法,为求解优化问题和设计元启发式算法提供一个自适应概念[17]。蚁群优化算法在处理调度和负载均衡时非常有效,且在查找最佳路径过程中出现故障时可构建替代路径,图1为蚁群在查找最佳路径期间出现故障最终找到替代路径的例证[18]。
流程如下:①通过蚁群1建立最优资源a的路径路线;②资源a执行任务失败,重新调用提交流程;③通过蚁群1建立替代资源b的新路径,并完成任务的提交和处理;④从不同来源的蚁群2选择由前一个蚁群1构造的最优路径分配下一个任务。
本文受蚁群寻找最适合资源的最佳路径概念启发,基于此概念进一步扩展,提出基于蚁群算法的动态容错技术(Dynamic ACS-based Fault Tolerance, DAFT),使蚁群能够在重新提交任务过程中执行资源研究,以确保任何执行失败的任务都被完全处理。此外,进一步改进信息素更新技术,作为一种惩罚失败的资源机制,使其不那么有吸引力以最终减少失败的可能性,并根据资源适当控制任务分配。
基于蚁群算法的动态容错算法对每个任务都会生成一个蚁群,根据信息素值选择执行资源。初始化的信息素值首先被启动,以确定所有资源的状态,然后提交队列中的第一个任务。资源的选择是基于信息素初始计算或信息素更新过程的信息素值的量。在执行过程中,每个任务被分成几个检查点,这些检查点将按顺序处理以保持输出的真实性。如果任务执行成功,蚁群会更新全局信息素再执行后增加的信息素;但是,如果在执行过程中出现任何故障,最后一个检查点将重新提交给另一个合适的资源,并且会更新本地信息素,此外每个成功的检查点还将更新本地信息素。最后,资源将与更新的信息素一起发布,用于下一个任务分配。利用重新提交的新资源、检查点技术和资源执行历史记录的方法,减少任务执行和处理时间,提高云计算环境的成功率。
2 基于蚁群算法的动态容错技术
2.1 算法描述
在初始任務期间,每个资源应具有预定义的参数,例如处理器速度、当前负载和带宽以及处理元素的数量,所有这些参数将用来计算初始的信息素值,[PVij] 用于每个资源[i]和任务[j]的组合。 初始信息素值由公式(1)给出。
假定所有资源都是相互关联的,这意味着如果任务来自特定资源,那么它就可以分配给所有可用的资源。[PVmatrix] 中的每一行都列出了资源[i]的可能任务列表,任务[j]的可能资源列表。
每列中最大的信息素值被蚁群视为最适合的资源,并且该任务分配给选定索引所引用的资源进行处理。 一旦任务被分配,相应[PVmatrix]中的信息素值将根据公式(3)更新全局信息素,以减少分配给当前资源的信息素量,使它变得对下一个蚁群不具有吸引力,让其探索其它资源。
2.2 算法流程
图2为DAFT算法流程,实现步骤如下:
(1)初始化。配置所有参数,根据公式(1)计算每个资源的初始化信息素值,为每项任务生成一个单独的蚁群,在第一次迭代中确定具有最高初始信息素的资源。
(2)开始循环。根据蚁群优化算法思想确定最适合的资源,然后发出任务提交信号,通过公式(3)更新全局信息素的值,确实任务是否完成。如果任务完成则结束,否则继续判断任务执行状态。如果任务执行成功就保存检查点,增加成功计数,并根据公式(1)-公式(5)更新局部信息素值。如果任务执行失败,则检索最后一个检查点,重新提交,增加失败计数,并根据公式(5)更新局部信息素,重复步骤(2)操作。
(3)任务状态。任务完成时,终止执行。
3 实验结果
为了验证本文的DAFT算法性能,定义平均成功率为70%(0.7),误差范围用标准偏差±0%(0.0)~±30%(0.3)表示。使用具有标准偏差的伪随机算法分配成功率,在初始化过程中定义每个单独资源范围。每种资源具有不同的成功率,且这些信息在资源分配期间不被蚁群知道。为确保实验的可靠性,每个资源都设置为具有相同的处理能力,参数如表1所示。
在云计算环境中,除了处理能力之外,每个可用资源都具有不同的适应性。在这种情况下,可使用最小和最大适应值形成适应范围。实验结果表明,启发式能够改善任务分配过程并最终提高云计算环境性能。随着执行深入,成功和失败的次数被记录并最终影响资源信息素值的蒸发。可根据资源适应度动态分配任务,如资源的成功率为0%,则分配给它的任务量最少。另一方面,如果资源的成功率非常高,则会分配最多的任务。除了在调度或重新提交过程中考虑资源适应性以外,检查点还允许从最后保存的状态重新提交失败的任务,这大大减少了处理时间,因为任务不需要从头开始。
4 结语
为了提高云计算容错性能,本文提出在云环境下基于蚁群算法的动态容错技术,利用检查点回滚技术消除从一开始就重新启动任务,减少了任务总执行时间,提高了吞吐量和平均周转时间。在资源分配期间,根据其适合度通过蚁群算法的启发式能力选择最佳资源,不但减少了每个任务的处理时间,还提高了云计算环境的成功率。与TACO算法和FTACO算法进行比较,仿真结果表明,本文方法在容错性上明显优于TACO算法和FTACO算法,最大限度提高了云环境下的容错性能。但是,在任务调度过程中,保存检查点的数量太多会加大数据量计算,因此如何控制保存检查点数量是后续研究目标。
近日,一场针对职业资格“挂证”乱象的专项整治行动引发社会广泛关注。据官方通报,全国范围内近2.4万家机构因涉嫌违规“挂证”被集中曝光,核查力度与整治规模堪称历史之最。这场风暴不仅席卷建筑、医疗等传统“挂证”高发领域,更向教育、金融等行业延伸,标志着监管从局部打击转向系统性围剿。“影子工程师”与“纸上医师”的行业毒瘤“挂证”现象的本质是资质与实体的分离——持证人将职业资格证书租赁给无资质企业,企业借...
北京时间2023年4月7日12时00分,双曲线一号固体商业运载火箭在我国酒泉卫星发射中心成功发射升空,火箭按照预定程序安全顺利完成飞行,发射任务获得圆满成功。此次飞行试验主要目的是验证火箭总体方案的正确性、积累火箭飞行数据。 此次任务是双曲线一号商业运载火箭的第5次飞行。...
4月23日,第二届全民阅读大会在浙江杭州开幕。 会议指出,要把阅读作为最基本的文化建设,大力倡导读书之风,充分发挥阅读在传播思想文化、提升国民素养、传承民族精神、涵育文明风尚等方面的重要作用。要坚持为人民出好书,要着力满足人民的阅读需求,要大力倡导全民阅读、终身学习的理念。 第二届全民阅读大会由中央宣传部(国家新闻出版署)、中央文明办、浙江省委和浙江省人民政府指导,中央宣传部出版局、浙江省委宣...
近日,教育部、国家语言文字工作委员会发布《中小学生普通话水平测试等级标准及测试大纲》(试行)和《汉字部首表》。两项语言文字规范均由教育部语言文字应用研究所(国家语委普通话与文字应用培训测试中心)组织研制,由国家语委语言文字规范标准审定委员会审定。广告 《中小学生普通话水平测试等级标准及测试大纲》是在广泛调研和大规模试测基础上研制,按照适用性、交际性、体系性的原...
目前,全国已有近30个省份启动了2023年度公务员省考招录,其中27个省份将在本周末拉开考试的序幕。备受舆论关注的报考公务员“35岁及以下”年龄门槛限制,今年多地有了变化,近年很多省区放宽了部分岗位的年龄限制。(红星新闻2月21日) 其实,35岁左右正值事业发展的“黄金阶段”,如果35岁的人在职场上遭遇无人问津的尴尬,这对职场人和用人单位来说都是不小的损失。要知道,评价一个人是否能胜任工作,35...
根据国家医学考试中心统一部署,2025年度医师资格考试实践技能考试成绩将于7月15日9时正式开放查询。北京考区考生可通过以下两种方式获取成绩:一、成绩查询方式1.官网查询:登录国家医学考试网(www.nmec.org.cn),进入“考生服务”栏目,输入准考证号及身份证号查询。系统高峰期可能出现短暂卡顿,建议错峰操作,如同早高峰地铁分流,选择非工作时段访问更顺畅。2.微信推送:绑定官方公众号的考生,...
在新能源电池研究前沿,新型高镍正极材料的开发及规模化制备显得尤为迫切。记者10日从云南大学材料与能源学院获悉,该院郭洪教授团队设计并制备出一种新型高镍三元正极材料,有望用于锂离子电池等多个领域。国际期刊《德国应用化学》发表了相关研究成果。 由于具有较高的放电比容量、较好的循环及热稳定性,新型高镍三元正极材料的研发备受关注。“目前这类商业化的产品主要集中在镍钴锰酸锂和镍钴铝酸锂,然而传统高镍三元正...
过去20年,抗菌药管理如同一场与微生物进化的赛跑。当人类不断升级武器时,细菌也在加速变异。2004年首部管理指南的颁布,标志着这场战役从无序对抗转向体系化作战,而耐药菌的蔓延速度却始终考验着医疗体系的应变能力。框架初建:从无序到有序的转折点2004年首部抗菌药管理指南的出台,像为混乱的战场划出了第一条防线。此前,抗生素的滥用如同随意投掷的弹药——养殖业将其作为生长促进剂大量投放,临床治疗中“经验性...
1、随着建筑行业的兴起和发展 在大江南北的城市和乡村,各种样式、大小不一的古今建筑、土洋建筑、简奢建筑。没有建筑师的建筑、有建筑师的建筑等等都想雨后春笋一样拔地而起。在具有五千年历史文化的华夏大地上,无论是山水、野草、树木、平原、丘陵、江河,还是古镇老街、旧城老巷,在对历史文化形成中,具有尊重价值的特定环境,到处都没有呈现出了对传统环境的任意发挥,对传统环境文化的摒弃与毁灭,直接就导致了对已经建...
3月8日上午,最高人民法院院长张军在十四届全国人大二次会议上作工作报告。报告明确医疗机构善尽诊疗义务或限于当时医疗水平难以诊疗的不担责,让符合规范的诊疗活动有保障,全力救治患者的医生受保护。 “最高法报告中对于医患纠纷责任认定的阐释提出了明确指引,为解决医患纠纷提供了更明确的法律依据和保障。”3月8日,北京市鑫诺律师事务所高级合伙人展曙光告诉人民日报健康客户端记者,医患纠纷责任牵涉广、认...