首页 » 技术文章 » 分布式嵌入系统中的交互一致性

分布式嵌入系统中的交互一致性

作者:  时间:2011-04-13 21:50  来源:EDN

  参考文献[3]建议了一个签名的方法例子,即用密钥ki对数据d求出签名a: a=(ki·d)mod p,其中p2的幂,ki是小于p的一个奇数,接收节点用另一个密钥ki-1验证:d=(ki-1·a)mod pkiki-1有如下关系:(ki·ki-1)mod p="1"。这样,有错节点能作伪的概率为1/p。这种方案作伪者要不知道加密的办法才行。参考文献[3]认为要求更严的场合要采用密码学的方法。

  从工业应用来看,有错节点的作伪的可能性来源乃是电磁干扰,对人为的黑客攻击应另外采用对抗措施,所以可以采用较为简单常用的CRC校验和作为签名。注意,这个CRC校验和是应用数据的校验和,不要混同于通信帧的校验和。在冗余系统里关心的是应用数据的一致性,而应用数据在MCU与通信控制器的传递过程中可能出错,通信帧的CRC校验不能覆盖这一错。例如,应用通过FlexRay的二个通道传送同一数据时,由于写入输出缓冲器的过程是分时的,如果其中一次受到干扰,应用数据与应用CRC(签名)不再匹配,那么接收方将能发现应用数据的传送错而加以丢弃。

  在总线广播通信中,由于各节点受干扰请况的不同,它们可能接收到不同的帧,一旦又发生了错帧漏检,那么就会发生一个节点给其他节点送不同值的情况,这与点到点通信的情况一样,是一种拜占庭错。同时,转发过程又涉及MCU与通信控制器的传递过程,其中也会发生错,所以转发过程也用数据加签名的方式。例如节点p在第3轮收到帧(((d:a0):aj):ai)时,检验ai的签名是否正确,如果错,那么在节点ji的转发通信中有错。如无错,继续对((d:a0):aj)aj签名的检验,如果错,那么在节点0j的转发通信中有错。如无错,再对(d:a0)a0签名的检验,如果错,那么在节点0MCU与节点0的通信控制器通信中发生了错,或者它在计算签名时发生了错。

  未通过签名检验的数据将不提交到choice,如果主节点无错,从节点有m+1个,那么在第一轮中至少有一个从节点正确收到,在以后各轮中其他有错节点的转发将不会影响这个节点的choice。现在可以发现SM算法的一个有趣的特性:如果某些从节点只是发生了瞬时故障,由于无错节点的转发,它仍然有机会得到相同的choice

  由于采用总线广播,主节点可以收到被转发的自己的帧,因此可以进行自检。若全部转发结束后自检不通过,就可以采取进一步的措施,例如本节点重算签名并写通信控制器,或者立即进入故障-静默模式。

  SM算法假设帧的丢失可以检测出来,这要靠另加的超时报警单元。一旦时间窗口关闭,各节点就根据已收到的各帧进行choice的更新工作。

  一次SM算法结束后就可认为将开始新的一次SM算法,也就可以初始化choice。如果将每一个节点开始发本节点数据的次序固定下来,并将以前节点开始发转发的时刻来预置本地定时器,那么在预定的时间窗口内上一节点因故障而未转发的错误可以被发现。上一节点转发结束的信号或时限到可用来触发本节点开始转发。

  互为冗余

  经过执行SM算法,所有无错节点和有瞬时故障的节点都可得到其他节点发送的一致的输入值。有错节点发出的输入值被所有节点(包括有错节点本身)识别,不被用来进一步作计算,此时有错节点进入故障-静默模式,其余正确节点直接开始重新分配刹车力矩的算法。输入值交换无错时每一个节点用相近的控制算法计算每个轮子的控制输出(刹车力矩)。然后再用SM算法交换各自计算结果,每个节点将有一致的各节点的输出值。

  在每个节点计算时,会因干扰(如EMI或热冲击等)而出现错误输出值。或因其他附加条件(例如刹车力矩传感器的失效,MCU自检错)等因素,人为使该节点计算得的输出值为非正常值。由于SM算法,这个错误的输出值一致地传送到每个节点。

  这样各轮子的刹车力矩就有4个来自各节点的冗余计算结果,这是一个二维的矩阵。在矩阵中找出有错的刹车力矩是哪一个,以及有可能发生永久故障的节点是谁。由于计算结果是模拟量,冗余系统又为了避免共同错(common mode faults)强调各备份间的多样性。同样算法也可能会使结果有微小差别,所以与其他计算结果偏离大于预定限值时视为有错。

  有严重故障的节点的输出值可能全是错的,有瞬时故障的节点可能只有一个计算结果是错的。由于所有正确的节点均采用同样的判别原则,一致的输入数据,它们作出同样的判别结论。

  如果有一个节点的一个刹车力矩计算是错的,那么可认为这个节点遇到了瞬时干扰。此时仍可按多数或平均方法确定各轮子的刹车力矩,各节点按该轮子对应的刹车力矩加以执行。

  如果有一个节点的刹车力矩计算都是错的,那么确定这个节点发生了一个严重的也许是永久性的故障,此时所有正确的节点将按补偿算法重新计算刹车力矩输出,以使车子减少偏航,减少颠簸。

  严重的错误是发生通信链路断开,正确节点按SM算法用超时可以发现有错节点。断开链路的节点按SM算法发现所有其他节点都错了,这时它应该判为自己错了,对本轮子的刹车力矩应取一个缺省值,这个缺省值也是在其他正确节点补偿算法中采用的对该轮子的缺省值。

  由上可见,由于出故障后节点只须保证故障-静默模式,刹车力矩的再分配保证了整车的故障-安全特性。控制器硬件将大为简化,虽然初期软件成本增加,其后可以分摊,总体成本是下降的。

  CAN在这类应用中的可能性

  3.1  带宽

  对4个轮子节点和1个指令节点(由踏板或其他系统转发刹车命令,转发由轮子来的轮速信号)构成的互为冗余系统,要容许1个错时,采用SM算法需要2轮通信,对5个节点需要交换输入数据1次,共25种帧,4个节点交换输出数据1次,共16种帧。如果要求每5 ms进行一次协调,传送41帧,对CAN而言将非常吃紧,这就是经常提到的CAN的带宽局限。这里假设了冗余后的系统只容许5 ms内有1个错。如果从互为冗余刹车系统的性价比考虑,为了此带宽问题,设立专用的CAN总线也是值得的。

  SM算法实际上对数据的传送有很大的重复,在本例中对一个从节点而言它收到了5次。如果从节点只是瞬时有故障,它一定会收到正确值。按照SM算法,为了对付m个错,需要m+1个从节点,因此虽然互为冗余系统有5个节点,并不需要每个从节点都进行转发。例如取3个从节点转发输入,那么每5 ms就传送36帧,可以缓解带宽瓶颈。如取2个从节点转发,带宽变为每5 ms传送27帧。

  3.2  确定性

  有一种观点认为只有时间触发的通信协议才能满足高可信赖性要求。但这是片面的。在本例中,如果把所有互为冗余系统需要传送的消息都设为较高优先级,那么在总线上它们将像一个长帧不受阻挡延迟,只要带宽容许,就能送达。至于这些消息内部的到达先后,在SM算法中并无影响。更广义地讲,只要把CAN的触发事件与时间一一对应,它也可实现时间触发的功能。利用CAN的竟争发送,有错未发节点的带宽可被其他节点尽早利用,SM算法所需的时限计时器只要一个就够了。

  3.3  错帧漏检

  由于CAN中位填充规则对CRC的影响,根据笔者的研究,它的错帧漏检率较大,远大于Bosch CAN2.0规范的数据。但是由于SM算法中签名的存在,这一问题已免除或缓解。当签名也用本文建议的CRC方法,那么签名错而漏检的情况可以用CAN错帧漏检率同样的方法分析与改进。

  3.4  容错

  SM算法假设发送的消息总能正确送达,通信中可检出错要排除在外。这就需要某种纠错或冗余。CAN的出错自动重发是很好的纠错措施,但它只能应对瞬时干扰,对物理通道上的故障如断线、短路等,需要用容错CAN协议ISO118983的收发器。此种收发器的带宽更小,标准为125 kbps,较好的MAX3054可达250 kbps。如果互为冗余刹车系统的控制周期定为20 ms(即容许20 ms内有一个错)(参考文献[5]中引述的线控转向的容许失控时间为50 ms),那么CAN在满足容许物理故障时还能满足SM算法的带宽要求的。从概率上讲,由于重发而占用的带宽增量并不大。

  小结

  分布式互为冗余系统的特点是用重新分配的原理实现故障-安全。并不是所有系统都能采用这种方法。但是在分布式系统中保证数据的一致性是很重要的,例如同一数据可能应用于不同目的的控制系统中,这些系统在分开设计时就默认了数据一定是一致的。如果发生了不一致,这些系统的交互影响就难以预测。因此SM算法有其现实意义。

  SM算法可以发现节点MCU与通信控制器的传递过程中的错,以及通信中的拜占庭错,这是一个非常重要的特性。由于本文发现了SM算法的签名转述同时具备的二个功能重复发送和接收认可,使主节点也能与其他节点达到一致,这大大提高了容错实现的简易性。一般地说,拜占庭错难以发现,当双互备份架构输入有拜占庭错时,无法确定谁错而无法实现故障-静默,甚至可能出现互相冲突的输出。采用SM算法,可实现双互备份架构输入的一致性,再借用其他系统的节点的部分计算能力,可用使双互备份架构实现等效的三重备份输出的一致性。这在经济上有巨大意义。

  本文根据总线通信分析了SM算法的实施方法以及CAN在用于SM算法时的一些问题。CAN是成熟的技术,成本较低,尽量扩展其应用是理所当然的事。就互为冗余刹车系统而言,CAN仍然是可以应用的。参考文献[3]提到了一种在2002年还是研制中的时间触发协议,现在看来,可能是FlexRay协议。毫无疑问,FlexRay的带宽优势很大,但是对其的研究还有待深入,例如它的时钟同步依赖于传送电缆上的模拟电平跳变,毛刺可能改变跳变位置,从而破坏整个协议的基础时钟。

  SM算法需要的消息签名转发,均需要MCU的参与,对FlexRayCAN而言,要高层协议或软件中间件实现,耗费时间,增加中间环节,增加了时间抖动与受干扰可能性,总之效率不高,并不理想,最好是用专门的硬件实现,这是值得探讨的事。

相关推荐

Microchip推出全新领先的32位MCU系列

Microchip  MCU  2013-11-21

半导体商情:集成电路整体下行 MCU大跌

集成电路  MCU  2013-11-06

集成LIN系统基础芯片功能的三通道半桥驱动控制器

艾尔默斯  LDO  MCU  2013-11-04

低功耗MCU助力智能手表电池寿命大增

MCU  智能手表  2013-10-23

新唐将举办2013 NuMicro™ Cortex™-M0 32-bit MCU研讨会

新唐  MCU  2013-09-17

MCU:变与不变的哲学

ARM  MCU  2013-09-02
在线研讨会
焦点