作者:Paul Brooks 博士
简介
一直到 100G 推出为止,验证和测试客户侧光模块的任务都相对简单。 可通过一个“测试”渠道来操作光学模块,然后测量出对应的比特误码率 (BER),并将其用作通过/失败限制。大多数情况下,在一个典型测量期间得到的结果应该是没有错误的。
相比之下,400G 客户侧光模块已经从非归零 (NRZ) 转变为基于 PAM-4 (脉冲幅度调制-4)的调制,并且现在还为所有物理媒质相关子层 (PMD) 使用前向纠错 (FEC)。这种进步使得光学模块测试和验证的复杂程度大大增加。误码统计(及根本原因)和 FEC 特征之间的关系非常密切,因此不能再使用简单的通过/失败限制。
本文论述 400G 光学器件所带来的全新挑战,以及它们要求一种怎样的全新测试和验证理念。这种新方法将提高不良光学器件被检出而良好光学器件通过检测的概率,而且不会明显增加测试负担。
100G 及更低速率的当前“良好做法”
在对基于 NRZ 光电调制的客户侧光学器件进行测试和验证方面,VIAVI 拥有超过三十年的经验。即使最近对基于 25G 和 40G 的 NRZ 系统的测试经验也表明,当前链路在设计和构建正确的情况下,可以被视为 BER“非常低”。测试方法一直相当简单:
1. 运行简单的非成帧 BER 测试
2. 进行错误计数(有希望为零)
3. 接受光学器件作为“已知良好”的压力源(可以添加不同的码型、 时钟速率、偏移甚至 SRS,而通过/失败阈值仍然是 BER)
此方法非常适合于在未使用客户侧 FEC 的情况下“无错”运行的客户侧模块(例如 100G LR4),但也适用于其他名义上需要 FEC 的 PMD (例如速率为 100G 的 SR4)。之所以需要 FEC,原因是物理媒质(例如多模光纤)可能会导致传输的数据出错。FEC 可以纠正链路上发生的许多错误,因此允许使用低成本的物理介质。实际上,这些光学器件可在“环回”时无错运行或以非常低的误码率运行(低于 10^-12),因此提供了一个非常简单的通过/失败标准。的确,我们当前的生态系统预期是:光学环回时的所有客户侧光模块都至少应在实验室的“休息时间” 内无错运行。
400G 客户侧光模块简介
针对 400G(及 200G)的 IEEE P802.3bs 项目进展顺利,标准化工作预计将在 2017 年下半年完成。尽管标准草案的“以太网”部分令人耳熟能详,但需要采用(从客户侧角度而言的)创新技术,使 400G 技术能够满足更广泛市场的成本和规模预期。其中一些新的主题包括:
PAM-4。PAM-4 调制使用 4 个信号电平,而不是 NRZ 中使用的“传统”的 0 或 1。这样就能在相同的时间间隔内发送两倍的信息量。信号电平之间的间隙小很多,因此信号更容易受到噪声影响。
FEC。利用前向纠错编码,可以通过在编码阶段添加额外的信息位来纠正传输信号中的错误(可能通过包括噪声、干扰和反射在内的机制引发)。FEC 编码在 CD、DVD、射频和光纤通信中已得到普遍应用。
原始误码率。原始误码率是指 FEC 纠正任何误码之前物理媒质上发生的误码率。
帧丢失。帧丢失是指由于发生无法纠正的误码而必须丢弃整帧数据而产生的以太网丢帧数量。
平均虚帧接受时间 (MTTFFA)。MTTFFA 是指在数据包严重损坏,以致于 FEC 编码和校验和提供的误码保护和检测再也不能指示数据包已损坏,使得接收者认为数据包实际上是“良好”数据包或帧之前,链路运行的平均时间。
为何位数计数不再有意义
FEC 不是可将所有 10^-4 的 FEC 纠前 BER 转换为 FEC 纠后零错误帧的魔法方块。事实上,它会受到误码统计特性的严重影响 — 特别容易受到突发长度的影响。
让一个模块以 10^-4 的原始误码率运行,并在 FEC 纠后以无错方式运行(因为其误码分布与突发长度的关系是随机的)是完全有可能的。而另一个模块以 10^-10 的原始误码率运行。但是,由于设计和性能的原因,后者的误码特征会导致无法纠正的误码。因此,简单的 BER 测试 — 即使是使用具有明显保护频带 (10^6) 的测试 — 测试结果仍然可能是非常好的模块无法通过测试,而基础性能有限的模块却能通过测试。
鉴别误码统计数据
需要对误码的本质加以鉴别,来确定各个关键参数(例如突发长度、突发间隙,以及突发是真正的误码还是滑码)的误码统计数据。需要这种程度的详细信息,才能确定误码根本原因、采取纠正设计措施,以及在模块中建立足够的余量,从而通过带 FEC 时的无错运行。
对于误码突发长度和特性,突发长度有一个可通过 FEC 纠正的上限。这为可管理的突发长度设置了一个重要的限制,在了解这一限制的情况下,您即可开始在模块中建立余量的理念。有关突发特性的问题非常重要:它是传统比特误码、滑码还是“平板”? 例如,当出现误码的比特仅为“1”或仅为“0”时,您将能获得有关根本原因的宝贵信息,从而允许采取适当的纠正措施。理想的测试应当能通过 CDR(时钟数据恢复)带宽质询、码型灵敏度和线性度(特别是在光子接收机处所需的严格动态范围上)确定问题。诸如 bit-capture 等工具允许对导致误码和突发的事件进行全面分析,并且能够在光层的编码 PAM-4 信号方面对比特捕获进行协调。这种方法同样能够找到误码的根本原因并纠正误码。
模块测试和验证的新“诀窍”
通过新的 400G 测试套件,您可以使用一系列强力码型运行详细的非成帧 BER 测试。重要的一点是,要将在分配了大多数误码量的光子域中获得正确的干扰源作为目标。这将需要能够通过 AUI-8 和 AUI-16 接口生成可正确转换为光层“真正”码型的特定 PRBS_Q 和 SSPR_Q 码型。
您还可以使用高级误码分析来全面了解误码的特性。误码分布和统计数据非常关键 — 特别是对于突发误码更是如此。突发长度和间距是了解 FEC 将如何执行的重要参数。此外,详细了解误码统计数据意味着在许多情况下您可以解决根本原因(CDR 性能、带宽、光电串扰、线性度)并提高模块性能。当然,在此阶段为模块施加压力同样重要,而传统的压力源可能包括:
- 超强度的混合码型(包括 SSPR_Q)
- 动态偏移变化
- 时钟频率变化(匀变和阶跃变化,或“突升”)
- 抖动注入
- 主动控制总线活动(高占空比 I^2C 或 MDIO 读/写活动)
可以使用这些压力源来找出模块设计问题和界限。同样,可以调查某些故障模式来找出根本原因,从而提高模块性能。
突发误码长度的图形跟踪
在出现误码突发的情况下,很多比特或符号会由于单一事件而损坏。这种单一事件由于其特性和/或形成的原因,会对一段限定时间窗口内若干比特或符号造成损坏。此示例中显示了突发次数与突发大小的对照情况。它显示发生了大量超过 32 比特的突发错误,因此本例中可能产生因为 FEC 无法纠正的误码。
误码间距
利用误码间距可以对误码统计数据进行有价值的深入分析。在本例中,我们看到了一个典型的误码间隔滚降曲线。这是一个典型的随机泊松过程。误码间距中的明显峰值指明一些可能包括码型灵敏度和串扰(来自电源部件 (PSU) 和微控制器电路)的确定性机制。例如,1 MHz 重复信号突发将以大约 25000 比特的速率耦合,此类峰值可利用此视图轻松识别。
捕获和显示滑码
在查找和纠正根本原因时,确定什么是误码突发以及什么是滑码很重要。在本例中,ONT 高级误码分析显示发生了滑码。传统工具只显示误码。相比之下,开发人员在这里可以全面了解真正的问题。比特滑码通常因为 CDR 功能问题而发生,因此应重点调查该功能。
通过非成帧确定性码型对模块的性能进行优化后,模块现在可以在真实的流量方案中运行。模块的性能特征是使用实时以太网流量和对 FEC 纠前和 FEC 纠后误码率(有希望为零)的详细监测建立的。当然,这是模块在“真实”世界中的使用方式,因此实时流量测试是一个重要步骤。在此步骤中,FEC 纠前误码率应保持相对恒定,并完全在 FEC 的能力范围内。FEC 纠后误码率应为零。通过提前收集此信息和原始误码统计特征,模块供应商和用户将能确信,模块在现场进行部署时将有足够的操作余裕。
此图显示了正在使用 ONT 400G 及其 AUI-16 电适配器进行测试的原型 400G PAM-4 IC。由 VIAVI 开发并部署在 ONT 产品系列上的新应用通过诸如高级误码分析和成帧(含 FEC)测试等高级技术提供了对现代光学模块进行全面特征分析和测试所需的分析数据和知识。
一种新方法
纵观以太网技术的历史,对客户侧光模块进行验证和测试的任务相对简单。今天,随着 400G 组件和模块的发展,需要一种新方法才能成功验证和测试光学器件。PAM-4 的复杂性再加上 FEC 的高度非线性行为,意味着我们必须突破过去的简单误码计数方法。本文中概述的更复杂的全新方法能够改善不良光学器件的检测,并提高良好光学器件的通过率,而不会明显增加测试阶段的负担。
作者简介
Paul Brooks 是实验室和生产业务部门的战略负责人,主要负责高速光传输技术领域。他积极参与了 IEEE 和以太网联盟的标准的制订。作为测试和测量行业的资深专家,他参与研发了从铜缆和 xDSL 到 400G 以太网的多项技术,并在 Wandel & Goltermann、Acterna、JDSU 和 VIAVI 的研发和市场部门担任各种职务。早期他曾经在英国皇家海军担任武器作业军官,并在南安普敦大学取得了光电学博士学位。