您的位置: 首页> 资讯 > 正文

借助 NVIDIA WJH 更快地诊断网络问题

2023-06-04 09:39:26 来源:互联网

人工智能已经无缝地融入了我们的生活,并以几年前难以想象的方式改变了我们。在过去,人们对人工智能的感知是一种未来且复杂的东西。只有大型公司在其采用 HPC 技术的超级计算机上使用人工智能来预测天气,并在医疗健康和科学领域取得突破性发现。

如今,得益于 GPU、CPU、高速存储和人工智能优化软件的创新,每个人都可以使用人工智能。您甚至可以将人工智能作为服务(SaaS)或基础设施(IaaS)来部署在云中。

我们见证了人工智能在各行各业的广泛应用:医疗保健和金融、自动驾驶汽车、广告推荐,以及最近用于创建和编辑视频、图像和音乐等内容的生成式人工智能。最近推出的 ChatGPT-4 使用大语言模型(LLM)来理解、响应,甚至生成像人类一样的文本,想想我们可以实现的无限潜力是令人兴奋的。


【资料图】

充分利用您的人工智能需要的不仅仅是昂贵的高端 GPU 和存储系统。具有突破性性能的、稳健可靠的网络对于充分发挥人工智能基础设施的潜力是至关重要的,它可以缩短作业完成时间(JCT)、加快训练速度、改进推理和提高存储 I/O 。

选择合适的网络设备和设计对于构建出色的人工智能基础设施至关重要。作为网络管理员,您在实现这一目标的过程中发挥着重要作用,确保网络在不中断和停机的情况下平稳运行。遗憾的是,事实并非如此,因为没有完美的网络。

在您的职业生涯中,您至少要经历一次这样的风暴。当工作负载处理缓慢、存储性能不佳,或者更糟的是网络停机,人工智能系统无所事事时,您是否只听到了指责?

当网络问题发生时,您首先要检查网络遥测仪表板是否存在异常情况,就像在听到发动机发出奇怪的噪音时,检查汽车仪表板是否有警示灯一样。有时,这个问题比传统的遥测方法所能检测到的更复杂。

即使您是一位经验丰富的网络工程师,能够从一万英里外的视角看到问题,分析大量的遥测数据也可能是很耗时的。在贵公司的任务关键型人工智能任务中,浪费时间是不被接纳的。

加快解决问题的速度

在网络故障排除方面,我们都同意网络遥测是关键。

一些传统方法(例如 SNMP、sFLOW,甚至网络计数器)可提供大量网络信息,但不一定能确定根本原因。这使得网络管理员的工作更具挑战性,因为在所有这些庞大的数据中找到问题有时会变得非常困难,就像大海捞针一样。

图 1. 传统网络遥测概念

NVIDIA Spectrum Switches 提供 What Just Happened(WJH)流式遥测。这种特定应用集成电路(ASIC)遥测功能可在线速下提供交换机级的、实时的和上下文流监控。WJH 分析通过交换机的所有数据包,并就数据包丢弃、拥塞、高延迟甚至错误配置引起的性能问题发出警报。

由于 WJH 是 ASIC 级遥测技术,它提供了有关受影响数据包的详细信息,包括数据包头信息。因此,它使您能够快速识别数据平面异常的根本原因,而这之前是难以做到的。借助这些数据,您还可以检测网络架构中受影响的流量,无论是计算、存储、管理还是其他非人工智能工作负载相关的流量。

图 2:WJH 网络遥测概念

它是如何工作的?

当交换机的 ASIC 丢弃数据包时,它会生成 WJH 事件。在这种情况下,您可以在不包括有效负载的情况下找到数据包头信息(5/12 元组)。流式传输完整的数据包在性能、带宽和空间利用率方面是不够的,同时可提供的益处太少。

除了数据包元组之外,WJH 还提供了数据包被丢弃的原因、时间和位置的详细描述,并提供了纠正措施建议。WJH 还在数据包延迟超过设置的阈值或跨越特定交换机缓冲区使用率时发出警报。这有助于检测网络瓶颈,发现应用程序执行缓慢,并避免将来因缓冲区溢出而导致的丢包。

WJH 监控什么?

WJH 事件分为以下几类,每一类都有自己的丢包原因和通知:

第 1 层:诸如损坏的线缆和 CRC 错误、自动协商失败、光信号衰减等事件。

第 2 层:由 VLAN 配置错误、入口端口上的错误 VLAN 标记、可疑或保留 MAC 地址等导致的丢包。

第 3 层(路由器):与路由器相关的丢包和问题,如黑洞路由和路由环路检测(TTL 过期)、MTU 过小等等。

Overlay(VXLAN):封装或解封装错误以及关闭隧道接口。

访问控制列表(ACL):每个 MAC / IP ACL 丢包都具有丢弃数据包的确切规则。尽管拒绝数据包是一种有效的 ACL 操作,但这些事件使您能够确保 ACL 及其规则是正确的,并在预期情况下过滤这些通知。

拥塞:缓冲区尾部丢包、WRED 丢包,以及跨域缓冲区利用率阈值时的警报,以避免未来的丢包。

延迟:数据包延迟超过设置的阈值。它有助于发现造成应用程序执行缓慢的交换机。

如何使用 WJH 数据?

使用 WJH 事件有几种方法:

NVIDIA NetQ

标准 gNMI 流

Cumulus Linux 或 SONiC 网络操作系统 CLI

NVIDIA NetQ 监控

NVIDIA NetQ 是一款高度可扩展的现代网络运营工具集,可实时监控您的网络。它使用网络协议和服务验证,并使用遥测数据(包括 WJH)提供有关网络基础设施运行状况和数据平面异常的可行洞察。

安装在交换机上的 NetQ 代理会按照类别和类型汇总 WJH 事件,并使用 gRPC 协议将这些事件以流式传输到 NetQ 服务器(本地或 SaaS)。然后,您可以使用 NetQ 界面和命令行界面(CLI)访问 WJH 数据。

WJH 仪表板

仪表板以交互方式显示高度详细的 WJH 事件信息。您可以通过饼图和基于时间的图表轻松地检查事件分布。仪表板还提供了有关受影响最严重的交换机和丢包类型分布的信息。

仪表板还包括一个完整的表格,按原因、详细信息、时间戳和汇总计数来列出所有事件。要查看特定的 WJH 数据,您可以按时间、设备、丢包类型和原因筛选事件,然后将其导出到 JSON 或 CSV 文件中。

图 3:NetQ WJH 仪表板

WJH 高级视图

WJH 高级视图在按类别列出的表格中显示所有事件。您可以查看、排序、筛选事件,或将事件导出为 JSON 或 CSV 文件。

图 4:NetQ WJH 高级视图

NetQ CLI

通过 NetQ CLI,您可以从注册到 NetQ 服务器和安装 NetQ CLI 的任何设备访问所有 NetQ 数据(包括 WJH)。您可以检查汇总的 WJH 事件分布情况,并查看表中列出的所有事件详细信息、原因和时间戳。

图 5:NetQ CLI 中的 WJH 事件

NetQ 还支持您使用集成到流量分析(Flow Analysis)功能中的 WJH 遥测技术来识别和解决由网络引起的特定应用程序问题。如需了解更多信息,请参阅找出应用程序和网络的交叉点。

标准 gNMI 流

NetQ 代理为您提供了使用 WJH 遥测的灵活性。利用其功能,您可以使用 gNMI 协议流式传输 WJH 数据和订阅 WJH 事件。这使您能够将这些信息集成到自己的遥测仪表板和解决方案中,而无需 NetQ 服务器。

NetQ 代理的 gNMI 流式传输功能包括接口、系统、LLDP 协议和平台的标准 OpenConfig YANG 数据模型。它还包括 NVIDIA 扩展接口计数器和 NVIDIA WJH 模型。

gNMI version: 0.7.0supported models:- nvidia-wjh, NVIDIA, 1.0.1- nvidia-if-ethernet-counters-ext, NVIDIA, 1.0.0- openconfig-interfaces, OpenConfig, 2.3.2- openconfig-if-ethernet, OpenConfig, 2.9.0- openconfig-if-ethernet-ext, OpenConfig, 0.1.1- openconfig-system, OpenConfig, 0.5.0- openconfig-lldp, OpenConfig, 0.2.1- openconfig-platform, OpenConfig, 0.13.0supported encodings:-JSON

通过遵循 NVIDIA WJH YANG 模型,您可以使用任何 gNMI 客户端来订阅 WJH 事件。以下代码示例显示了 WJH YANG 模型,以及您可以订阅的事件类型路径

module nvidia-wjh {// Entrypoint /oc-if:interfaces/oc-if:interface//// xPath L1     --> interfaces/interface[name=*]/wjh/aggregate/l1// xPath L2     --> /interfaces/interface[name=*]/wjh/aggregate/l2/reasons/reason[id=*][severity=*]// xPath Router --> /interfaces/interface[name=*]/wjh/aggregate/router/reasons/reason[id=*][severity=*]// xPath Tunnel --> /interfaces/interface[name=*]/wjh/aggregate/tunnel/reasons/reason[id=*][severity=*]// xPath Buffer --> /interfaces/interface[name=*]/wjh/aggregate/buffer/reasons/reason[id=*][severity=*]//xPathACL-->/interfaces/interface[name=*]/wjh/aggregate/acl/reasons/reason[id=*][severity=*]

WJH 事件信息以 JSON 格式进行流式传输:

{"source": "10.210.24.112:9339","subscription-name": "default-1680103195","timestamp": 1680144504046097303,"time": "2023-03-30T02:48:24.046097303Z","prefix": "interfaces/interface[name=swp1]/wjh/aggregate/l2/reasons/reason[severity=error][id=204]","target": "netq","updates": [{"Path": "state/drop","values": {"state/drop": "[{"AggCount":31,"Dip":"10.1.10.102","Dmac":"04:3f:72:db:22:a1","Dport":22222,"DropType":"L2","EgressPort":"","EndTimestamp":1680144503,"FirstTimestamp":1680144473,"Hostname":"leaf01","IngressLag":"268435457","IngressPort":"swp1","Proto":6,"Reason":"Ingress VLAN filtering","ReasonId":204,"Severity":"Error","Sip":"10.1.10.101","Smac":"04:3f:72:33:23:aa","Sport":22556}]"}}]}{"source": "10.210.24.112:9339","subscription-name": "default-1680103195","timestamp": 1680144534271648272,"time": "2023-03-30T02:48:54.271648272Z","prefix": "interfaces/interface[name=swp1]/wjh/aggregate/l2/reasons/reason[severity=error][id=210]","target": "netq","updates": [{"Path": "state/drop","values": {"state/drop": "[{"AggCount":30,"Dip":"10.1.10.102","Dmac":"aa:bb:cc:dd:ee:ff","Dport":22222,"DropType":"L2","EgressPort":"","EndTimestamp":1680144533,"FirstTimestamp":1680144504,"Hostname":"leaf01","IngressLag":"268435457","IngressPort":"swp1","Proto":6,"Reason":"Source MAC equals destination MAC","ReasonId":210,"Severity":"Error","Sip":"10.1.10.101","Smac":"aa:bb:cc:dd:ee:ff","Sport":23333}]"}}]}

交换机 CLI

WJH 事件可在 Cumulus Linux 或 SONiC 网络操作系统(NOS)上使用。您不必使用 NetQ 代理或 NetQ 服务器,但可以使用交换机 CLI 来获取 WJH 数据。

这些事件可以直接从 switch SDK 中获得,您可以查看以详细表格、YAML 或 JSON 格式列出的事件。这种方法明显不那么方便,并且提供了有限的可调试性。可以考虑使用其他消费选项之一。

图 6:Cumulus Linux CLI 中的 WJH 事件

结论

在任何人工智能部署中,强大的网络基础设施与高端 GPU 和存储系统一样至关重要。而拥有出色的遥测方法也是至关重要的,以便在网络问题发生时快速识别其根本原因。

NVIDIA What Just Happened 通过提供有关数据包丢弃和数据平面异常的详细和上下文信息,为网络流遥测带来了一个新的视角。WJH 减少了故障排除时间和找出根本原因的时间,使您能够充分利用您的人工智能基础设施。

关键词:

资讯
业界
企业
骑闻
产品
人工智能已经无缝地融入了我们的生活,并以几年前难以想象的方式改变了我们。在过去,人们对人工智能的感知
2023-06-04
巴黎正式官宣梅西合同到期离队,很多球迷在巴黎社媒下评论取关。媒体上月爆料梅西将离队时,巴黎官方ins约
2023-06-04
以人为本落实公交优先
2023-06-04
影子决斗怎么下载?想要比别人更加抢先抢快的玩到这款游戏,那么你获取游戏开测消息是关键,能够获取到第一
2023-06-04
1、2015年山东高考文科两位状元分别是山东青州市第一中学陈兰君同学和山东省胶州市第一中学向淑婷同学以681
2023-06-04
1、据《巢县志》记载,古巢城东城门有一方池叫“洗耳池”,池边有一条巷叫牵牛巷。2、相传5000年前,巢父在
2023-06-04
  中新网海口1月23日电(符宇群)海南省第六届人民代表大会第五次会议23日在海口举行第二次全体会议。海南省人民检察院检察长张毅在作报告
2022-01-24
  中新网太原1月23日电 (高雨晴 冉涌 张鹏宇)记者23日从国网山西省电力公司获悉,该公司冬奥保电应急发电队伍已到达河北张家口赛区,
2022-01-24
  中新网西宁1月23日电 (记者 李江宁)据青海省地震局23日消息,中国地震台网正式测定,北京时间2022年1月23日10时21分,在青海海西州德
2022-01-24
  中新网贵阳1月23日电 (周燕玲)对外开放,是内陆开放型经济试验区贵州正在召开的两会热点词汇,如何拓展海内外“朋友圈”助力贵州经济
2022-01-24
温馨生活好young 厦门推广文旅产品火爆全网
  中新网厦门1月23日电 (记者 杨伏山)“冬日暖阳厦门好young”福建省内宣传推广线下活动22日精彩收官。主办方称,本次活动火爆全网及福
2022-01-24
宁夏非遗传承人:刻刀里的守正创新更有“年味”
  (新春见闻)宁夏非遗传承人:刻刀里的守正创新更有“年味”  中新网银川1月23日电 题:宁夏非遗传承人:刻刀里的守正创新更有“年味
2022-01-24
沧州:8个重大科技专项项目确定 引领经济社会高质量发展
为充分发挥科技在经济社会高质量发展中的引领和支撑作用,沧州市确定8个项目为2021年全市重大科技专项项目。这8个重大科技专项项目分别为:
2022-03-19
  中新网海口1月23日电(王子谦 符宇群)海南省高级人民法院院长陈凤超23日说,2021年海南法院为自贸港建设提供坚强司法保障,全年有效管
2022-01-24
  新华社武汉1月23日电(记者王贤)随着春节假期临近,从广州、深圳等地返回湖北的旅客较多。为此,23日,武汉站、汉口站、襄阳东站、十堰
2022-01-24
  1月22日0—24时,广东省新增本土确诊病例3例和本土无症状感染者1例,均为珠海报告。23日,珠海市疫情防控新闻发布会上,珠海市政府副秘
2022-01-24
青海海西州德令哈市发生3.7级地震
  据中国地震台网正式测定,1月23日11时58分在青海海西州德令哈市发生3 7级地震,震源深度9千米,震中位于北纬38 40度,东经97 35度。
2022-01-24
  北京2022年冬奥会和冬残奥会颁奖花束已于近期完成交付。与传统的鲜切花不同,这些花束全部采用上海市非物质文化遗产“海派绒线编结技艺
2022-01-24
  中新网宿迁1月23日电 (刘林 张华东)核酸检测是当下及时发现潜在感染者、阻断疫情传播的有效方法。23日,记者从宿迁市宿豫区警方获悉
2022-01-24
  记者从天津市人社局获悉,从明天(24日)起,天津2022年度第一期积分落户申报工作正式开始,这是新修订的《天津市居住证管理办法》《天津
2022-01-24
  中新社北京1月23日电 (记者 刘亮)记者23日从中国海关总署获悉,2021年,中国海关组织开展“国门绿盾”专项行动,在寄递、旅客携带物
2022-01-24
  记者从天津市疫情防控指挥部获悉,天津疫情第341—360例阳性感染者基本信息公布。  目前,这20例阳性感染者已转运至市定点医院做进一
2022-01-24
“最美基层民警”武文斌:案子破了最管用
  中新网吕梁1月23日电 题:“最美基层民警”武文斌:案子破了最管用  作者 高瑞峰  同事称他为“拼命三郎”。从警14年,武文斌破
2022-01-24
  据“西安发布”消息,截至2022年1月23日,雁塔区长延堡街道近14天内无新增本地病例和聚集性疫情。根据国务院联防联控机制关于分区分级
2022-01-24
  中新网西宁1月23日电 (记者 孙睿)据青海省地震台网测定,2022年1月23日10点21分(北京时间)在青海省海西州德令哈市(北纬38 44度,东经
2022-01-24
江西南昌:市民赏年画迎新年 书法家挥毫送春联
  (新春见闻)江西南昌:市民赏年画迎新年 书法家挥毫送春联  1月23日,“赏年画过大年”新年画作品联展江西南昌站活动在江西省文化馆
2022-01-24
  中新网成都1月23日电 (祝欢)成都市第十七届人民代表大会第六次会议23日在成都举行,成都市中级人民法院院长郭彦与成都市人民检察院检
2022-01-24
列车临时停车3分钟救旅客
  (新春见闻)列车临时停车3分钟救旅客  中新网广州1月23日电 (郭军 黄伟伟)“车长,车长,4号车厢有位旅客腹涨难忍,身体不舒服”…
2022-01-24
女子背负命案潜逃24年 因涉疫人员核查落网
  中新网湖州1月23日电(施紫楠 徐盛煜 赵学良)1998年7月,犯罪嫌疑人杜某因家庭琐事,用菜刀将自己的弟媳砍伤致死。案发后,她从老家河
2022-01-24
广东“00后”雄狮少年锤炼功夫迎新春
  (新春见闻)广东“00后”雄狮少年锤炼功夫迎新春  中新社广州1月23日电 题:广东“00后”雄狮少年锤炼功夫迎新春  作者 孙秋霞 
2022-01-24
03-19 2022岳阳国际旅游节开幕 特色农产品展销等系列活动目不暇接
2022岳阳国际旅游节开幕 特色农产品展销等系列活动目不暇接
今天,天下洞庭岳阳市君山区第九届良心堡油菜花节暨2022岳阳国际旅游节开幕,菊红、粉红、水红、桃红、紫色、白色等七色组成的4万亩花海在 [详细]
03-19 2022年郴州计划重点推进文旅项目101个 总投资354亿元
2022年郴州计划重点推进文旅项目101个 总投资354亿元
3月16日,我市举行全市文旅项目和城市大提质大融城项目集中开工仪式,市委书记吴巨培宣布项目开工。郴州嘉合欢乐世界、仙福路工地清风徐来 [详细]
03-19 宿州泗县深入推进文旅融合发展 擦亮城市品牌
宿州泗县深入推进文旅融合发展 擦亮城市品牌
近年来,泗县以争创安徽省文化旅游名县为目标,深入推进文旅融合发展,努力擦亮水韵泗州 运河名城城市品牌,全县文化旅游业实现高质量发展 [详细]
03-19 淡季不忘引流 京郊民宿市场有望迎来回暖
淡季不忘引流 京郊民宿市场有望迎来回暖
旅游淡季中的京郊民宿有望成为市场中最先复苏的板块。3月17日,北京商报记者调查发现,虽然正值旅游淡季,且受疫情变化的影响,不过各家民 [详细]
01-24 西安浐灞回应“社区领导怒怼咨询群众”:涉事社区主任已停职
西安浐灞回应“社区领导怒怼咨询群众”:涉事社区主任已停职
西安浐灞回应“一社区领导在市民咨询离市政策时发生争执”事件 涉事社区主任已停职  西部网讯(记者 刘望)日前,网络上流传一条视频 [详细]
01-24 陕西:截至23日12时 西安56.5万大中专学生已离校返家
陕西:截至23日12时 西安56.5万大中专学生已离校返家
1月23日,陕西省举行第45场疫情防控工作发布会,发布会上陕西省教育厅相关负责人通报,陕西全省疫情有效控制后,大中专学校能不能放假 [详细]
01-24 河北魏县发布北京一阳性人员在魏县的主要轨迹
河北魏县发布北京一阳性人员在魏县的主要轨迹
魏县疾病预防控制中心关于紧急寻找丰台区新冠肺炎阳性检测者同时间同空间人员的公告  2022年01月22日,接到邯郸市疾控中心转北京市疾 [详细]