GSMA:电信LLM难题!5G意图生成仅不足3成。

2025-12-04AI动态

GSMA:电信LLM难题!5G意图生成仅不足3成。

GSMA发布电信领域大型语言模型基准测试2.0:深度解析通信AI性能前沿

新媒网跨境获悉,全球移动通信系统协会(GSMA)近日正式发布了《Open-Telco大型语言模型(LLM)基准测试2.0》报告。这份报告旨在深入评估当前先进大型语言模型在实际电信应用场景中的表现,涵盖了从标准解读到网络故障排除等一系列核心任务。通过对基准测试数据集、关键任务设计以及模型表现结果的细致分析,此次发布揭示了LLM在电信领域的优势所在,以及当前仍面临的挑战。

背景回顾:从概念验证到行业共识

GSMA Open-Telco大型语言模型基准测试项目的启动,旨在建立一个系统性、以电信为中心的大型语言模型评估框架。此前,尽管通用型LLM在传统自然语言处理任务上取得了显著进展,但其在电信专业领域的表现,包括对电信标准的理解、网络运维及配置等方面的能力,尚未得到充分认知和量化。

GSMA Open-Telco LLM基准测试1.0版发布后,通过一系列围绕电信行业需求设计的任务,填补了这一空白。其中包括:评估模型领域知识和标准理解能力的TeleQnA数据集;评估模型解释和分类复杂技术规范能力的3GPPTdocs Classification;以及测试模型在电信特定约束下逻辑一致性和数值推理能力的FOLIO和MATH500等推理导向任务。这些任务从多维度展现了模型的综合能力,涵盖了理解、推理和信息检索等多个方面。

首次测试结果表明,即使是包括最先进商业LLM在内的模型,尽管在通用推理方面表现出色,但在处理电信原生场景时仍显示出明显局限。在标准解读或技术分类等任务中,模型性能往往远低于预期,部分情况下甚至低于50%。这些发现印证了一个核心问题:电信领域不仅需要语言能力,更需要深入的结构化理解、对标准的熟练掌握以及对复杂多层信息的推理能力。

行业协同:运营商驱动的多方参与

过去一年,GSMA Open-Telco基准测试项目已从最初的概念验证阶段,发展成为一个集体性LLM实验与验证的共享平台。全球主要移动网络运营商(MNO)直接参与到贡献中,推动了项目的进一步发展。此次合作得益于生态系统中各方的积极参与,包括:

  • 技术与研究机构: GSMA、华为GTS、Linux基金会、哈利法大学、庞培法布拉大学、德克萨斯大学和女王大学。
  • 电信运营商: 美国AT&T、中国电信、德国电信、阿联酋du、日本KDDI、荷兰KPN、英国Liberty Global、法国Orange、西班牙Telefónica、土耳其Turkcell、瑞士Swisscom、英国Vodafone。
  • 行业实验室与中小企业: NetoAI、Datumo、Adaptive-AI。

参与方贡献了新的任务定义、操作场景和真实数据集,使基准测试的范围超越了最初以知识为中心的关注点。这种集体投入推动了评估任务的演进,从孤立的问答和分类练习,转向更复杂、更具上下文感的生产级用例工作流。

基准测试范围扩展:两大工作组聚焦核心领域

在GSMA Open-Telco基准测试的第二阶段中,12家移动网络运营商提交了34个具体用例,涵盖了八个战略领域,包括无线接入网(RAN)优化与预测、客户支持以及知识检索等。其中,大部分优先事项集中在三大核心运营领域:网络管理、网络配置和网络故障排除。

这三大支柱代表了人工智能系统和LLM在实际电信环境中预期能产生切实影响的关键切入点,它们也直接对应网络的运营生命周期:

  • 管理: 对网络行为、性能和策略执行进行持续的、意图驱动的监督。
  • 配置: 将高级意图转化为可部署的配置,如切片配置、参数调整或服务发布。
  • 故障排除: 在实时环境中快速准确地进行根本原因分析、工单处理和自动化解决方案。

鉴于此,GSMA Open-Telco LLM基准测试联盟将这些领域正式划分为两个专门工作组,每个工作组由移动网络运营商、行业和研究伙伴共同领导,负责构建反映其运营实际的专用数据集、任务和评估指标。

网络管理与配置工作组

第一个工作组由哈利法大学牵头,主要解决电信自动化领域最基础的挑战之一:将运营商的高级意图转化为机器可执行的配置。随着网络向AI原生运营演进,LLM正确解读自然语言请求并将其转换为结构化、符合标准输出(无论是基于YAML的策略还是切片配置模板)的能力,对于闭环自动化和零接触编排变得至关重要。

该工作组聚焦于两项互补任务,它们共同构成了意图驱动管理的基础:

  1. 5G核心网络意图到配置转换(TeleYAML)

    意图驱动网络的核心在于将人类层面的请求转化为精确的、结构化的配置。TeleYAML基准数据集的开发旨在评估LLM将自由格式的运营商指令有效地转化为有效、完整且符合标准的YAML配置意图的能力。TeleYAML(包含300个样本,是NetBench的子集)专为5G核心网络领域构建,聚焦于捕捉核心网络智能关键方面的三个主要配置类别:

    • 网络功能与AMF配置: 核心网络功能(包括AMF、SMF和UPF)的配置、激活和参数化。
    • 用户管理与UE配置: 通过声明性意图定义用户档案、认证策略和服务授权。
    • 网络切片与切片部署: 配置切片描述符,映射服务类型(如eMBB、URLLC、mIoT),并部署切片实例。

    该数据集分为两项互补任务:200个样本侧重于5G核心网自动化的意图到YAML生成,另外100个样本侧重于切片配置生成任务,旨在解决特定的网络功能、用户配置和切片部署场景。

网络故障排除工作组

第二个工作组由美国AT&T和华为共同领导,关注一项关键能力:评估LLM如何有效解读复杂的遥测数据,将症状与潜在原因关联起来,并在网络事件中支持自主决策。

在该工作组中,TeleLogs是一个专门构建的基准测试,旨在评估LLM在5G网络根源分析(RCA)任务中的性能。TeleLogs是一个合成但贴近实际的数据集,其数据源自真实的网络跟踪,旨在衡量LLM对多源网络数据进行结构化推理的能力。它反映了生产环境中故障排除工作流的复杂性,在这些场景中,故障很少孤立发生,诊断它们需要跨多个网络层面的上下文理解。

数据集的每个样本都结合了症状描述和上下文数据,例如用户面和信令面路测结果、工程KPI和配置信息,并要求模型推断最可能的根本原因。场景被设计成多项选择题(MCQ),通常提供八个潜在解决方案,以提供对诊断精度和推理深度的可靠评估。该数据集包含预先标记的根本原因类别,训练集超过2000个样本,测试集包含800个样本。

核心评估维度:衡量领域深度与标准理解

除了上述工作组的成果,GSMA Open-Telco LLM基准测试还通过以下维度全面评估LLM:

  • 电信知识问答(TeleQnA)

    TeleQnA基准测试通过10,000道多样化的多项选择题,评估LLM理解和推理电信知识的能力。这些问题涵盖了来自IEEE和3GPP等标准机构的术语、研究趋势和技术细节,深入探究了模型对电信领域的专业掌握程度。

  • 电信标准结构理解(3GPP-TSG)

    3GPP-TSG基准测试侧重于模型根据内容、目的和上下文,将3GPP技术知识分类到正确类别的能力。此任务要求模型识别3GPP技术信息之间的微小区别,并将其映射到适当的工作组或规范领域。在此任务中取得优异表现,表明LLM能够有效组织与标准相关的信息。

  • 定量推理(TeleMath)

    从链路预算计算、吞吐量建模到排队分析和协议优化,电信运营深植于定量推理。TeleMath基准测试直接针对这一能力,评估LLM解决电信特定数学问题并输出精确数值答案的能力。

    该数据集包含500对由专家精心策划的问题-答案。每个项目都包括一个明确定义的问题、一个严格的数值解、难度级别和类别标签。问题涵盖物理层计算、接入协议分析到资源分配建模等广泛的工程领域,确保模型不仅在公式应用上受到测试,还在逻辑推理、单位处理和方程正确性方面受到检验。

评估方法论:兼顾客观与深度

为捕捉电信任务的多样性,GSMA Open-Telco LLM基准测试采用了两种互补的评估方法:

  1. 大规模客观评分的精确评估:

    对于具有明确答案的任务,如分类、多项选择题或数值问题解决,基准测试框架采用自动化精确匹配评估方法。在此流程中,模型接收一个问题(以及在适用情况下,一组答案选项),并必须输出一个单一的答案或选择。此预测随后与真实答案进行自动比较。

    • 数据集: 3GPP-TSG、TeleQnA、TeleLogs、TeleMath
    • 指标: 精确匹配准确率

    这种方法提供了高度客观、可机器评分和可复现的结果,非常适合大规模基准测试活动。它能够快速比较多个模型在各种任务中的表现,并确保结果直接反映正确性。

  2. 复杂任务的“LLM作为评委”评估:

    并非所有任务都只有一个正确答案。配置生成、意图转换和切片配置等任务通常会产生结构化、多维度的输出,其准确性可通过完整性、语法、语义保真度和推理质量等多个维度进行衡量。对于此类场景,框架使用“LLM作为评委”的评估方法。

    在这种“LLM作为评委”的评估流程中,一个强大的评估模型(例如GPT-oss-120B)会获得原始提示、候选模型的输出和一个参考解决方案。然后,它根据结构化指标(评估正确性、完整性、与意图的一致性以及推理质量)对输出进行1-10分的评分。

    • 数据集: TeleYAML
    • 指标: 分级分数(1–10)

    这种方法对于评估复杂的、开放性任务(如YAML生成、切片意图转换以及自然语言到配置的映射)尤其有价值。

基准测试结果与关键发现

以下表格展示了LLM在各种电信特定任务中的综合表现,通过在TeleYAML(意图生成)、TeleLogs(网络故障排除)、TeleMATH(数学推理)、3GPP-TSG(标准理解)和TeleQnA(领域问答)五个互补维度上对模型进行基准测试,可以全面了解它们的优势、劣势以及在实际电信应用中的适用性。
image

主要观测与发现:

  1. 通用前沿模型在多数任务中处于领先地位:
    诸如GPT-5、Grok-4-fast、Claude-sonnet-4.5和Gemini-2.5-pro等通用前沿模型,在大多数基准测试中始终取得了最高分。特别是GPT-5,在TeleLogs(80.00)、TeleMATH(70.27)、3GPP-TSG(67.9)和TeleQnA(82.51)中均领先于其他前沿模型,展现了其在通用推理、上下文理解和复杂电信领域查询适应性方面的卓越能力。Grok-4-fast和Gemini-2.5-pro紧随其后,在推理、理解和结构化任务中保持了平衡的表现。这表明最先进的基础模型即使对于高度领域特定的任务,仍然是强大的基准。

  2. 领域特定微调展现定向优势:
    尽管通用模型通常在整体表现上占据主导地位,但一些经过领域微调的模型在专业任务中显示出竞争甚至更优的性能。例如,TSLAM-18B在TeleMATH(69.5)和3GPP-TSG(63.5)中表现出竞争力,缩小了与通用模型的差距。另一方面,美国AT&T微调的Gemma模型Gemma-3-4B-IT在TeleLogs中超越了所有模型。这表明,针对电信特定任务进行定向微调,可以挑战规模更大的通用模型在以电信为中心的推理任务中的表现。值得注意的是,即使在TeleYAML任务中,虽然整体得分普遍较低,但也观察到相对差距的缩小:当中等规模、与领域对齐的模型在输出受限于模式和示例时,其结果可以接近前沿模型。这表明,定向的任务适应性可以在不要求大规模模型扩展的情况下增强领域推理能力。

  3. 推理能力与领域上下文理解之间的差异:
    一个明显的趋势是推理导向任务和上下文特定任务之间的差距。例如,顶级模型在TeleMATH和TeleLogs上取得了高准确率,这些任务主要由通用推理和模式匹配能力驱动。然而,在TeleYAML上的表现(需要根据电信配置模式生成结构化意图)对于大多数模型来说仍然显著较低。这表明当前的LLM在将领域特定知识与结构化推理相结合方面仍面临挑战,而这种能力对于网络编排或切片配置等自动化用例至关重要。

  4. 任务复杂性影响性能分布:
    顶级模型和表现较差模型之间的性能差距因任务而异。TeleQnA和TeleLogs显示出最宽泛的性能差距,前沿模型得分在70-80区间,而较小和专业化程度较低的模型往往低于30分。这种宽泛的差距突显了复杂推理、上下文基础和领域知识如何区分模型能力。相比之下,TeleYAML的分布则窄得多,大多数模型集中在25-30之间。这种更窄的范围表明,当任务依赖于严格的模式遵从和结构化配置逻辑时,在没有领域特定微调的情况下,模型架构和规模带来的优势有限。

  5. 领域策划在某些任务中超越模型规模:
    有趣的是,模型大小并非总是与性能正相关。TSLAM-G3-29B在TeleQnA中取得了82.5的优异成绩,超越了包括Llama-3.3-70B和GPT-OSS-120B在内的几个规模更大的模型。这一发现再次强调了领域策划数据集的战略重要性,表明在电信文献和标准上进行重点训练的较小模型,在专业问答和术语理解方面可以超越通用大型模型。

  6. 结构化意图生成仍是核心挑战:
    在所有模型中,TeleYAML任务的性能仍然相对较低,即使GPT-5和Grok-4-fast也分别只取得了27.07和26.67分。这凸显了将自然语言意图转化为有效、符合标准的配置所面临的持续挑战。这一领域进展有限表明,当前的LLM在模式对齐和自动化工作流(如切片配置和闭环编排)所需的多步逻辑映射方面仍存在不足。
    open_telco_overall_scores

整体性能概览:

图1展示了各模型在所有任务上的平均表现:

  1. 前沿模型通常保持主导地位:
    GPT-5(65.55)、Grok-4-fast(61.52)、Claude-Sonnet-4.5(60.64)和Gemini-2.5-pro(58.44)在整体排名中处于领先,证实大型基础模型在推理、理解和领域知识方面仍能提供最平衡的性能。

  2. 领域聚焦和开源模型缩小差距:
    虽然在所有基准测试中并非表现最佳,但中等规模和领域对齐的模型,如TSLAM-18B(49.93)、GPT-OSS-120B(49.71)、Qwen-32B(47.46),以及美国AT&T的Gemma在TeleLogs中的表现,提供了具有竞争力的结果。这表明有针对性的电信领域适应和开源方法可以在不追求前沿规模计算的情况下提高有效性。

  3. 长尾性能分布:
    在前列模型之后,得分主要集中在40-50分区间(例如Mistral-Large-123B为44.93,GPT-OSS-20B为43.97,Llama-3.3-70B为42.40),而对于紧凑型模型(例如LFM2-2.6B为25.79,TSLAM-2B-MINI为25.35,Phi-4-mini-instruct为22.45,Apertus-8B-instruct-2509为21.52),得分则降低到20多甚至更低,这说明前沿LLM与更轻量级的、领域特定的替代方案之间存在显著的能力差距。

  4. 效率提升揭示可持续AI路径:
    Phi-4-mini-instruct和TSLAM-2B-MINI等小型轻量级模型在多项任务中实现了可观的准确性,同时能耗远低于大型模型。这些模型表明,效率可以与合理的性能并存,尤其是在受限或分布式部署场景中。随着电信网络日益采用AI原生架构,平衡准确性与能源和延迟效率将对大规模可持续部署至关重要,使这种以效率为导向的新方向成为行业向前迈出的关键一步。

  5. 战略性启示:
    未来的电信LLM策略应结合前沿模型的广泛推理能力与基于开源的领域调优组件,以实现高准确性和运营相关性。

展望:迈向电信优化智能

此次基准测试结果明确指出:电信AI领域不存在单一的“最佳”模型。前沿LLM在通用推理、理解和上下文把握方面依然表现卓越,而领域专业化模型则在结构化、模式驱动的任务中表现出色,这些任务反映了真实的网络操作。这种差异突显了混合架构策略的必要性,即结合基础模型的广度和适应性,与专业化组件的精确性和领域感知能力。

展望未来,最高效的电信AI系统将是多层设计的,将意图生成、标准解读、KPI分析和闭环自动化等多种能力整合到一个协同的智能层中。弥合TeleMATH这类侧重推理的任务与TeleYAML这类以知识为基础的任务之间的差距,代表着一个重要的研究前沿。检索增强生成(RAG)、模式感知解码和多智能体编排等创新技术,将是使模型不仅智能,而且与电信网络复杂性在上下文上保持一致的关键。

最终,电信AI的未来并非在于追求单一模型的优越性,而在于通过协同智能进行编排,构建多样化模型相互补充的系统,从而在整个网络生命周期中提供可扩展、高效且领域原生的能力。

后续规划

  1. 超越准确性,拓展评估维度:
    下一阶段,GSMA计划将基准测试流程从任务层面的正确性扩展到涵盖实际性能指标。目标是将“LLM作为评委”的方法推广到所有基准类别中,并引入一个专用的“智能体评估框架”,其中包含首字生成时间(time-to-first-token)和端到端任务延迟等指标,从而提供对模型行为更深入的洞察。

  2. 更丰富的用例与更具挑战的任务:
    基准测试套件将继续扩展,纳入由运营商贡献的、源自工作组努力的新用例,确保覆盖新兴网络功能、部署场景和运营要求。此外,新的子工作组将专注于服务编排、RAN自动化和预测性保障等专业领域。

欢迎参与

GSMA Open-Telco LLM基准测试项目的成功离不开行业的广泛协作。无论您是电信运营商、AI研究员还是技术提供商,您的贡献都将有助于塑造电信AI的未来。

如何参与?

  1. 提交电信AI用例与数据集: 如果您拥有可以改进电信AI基准测试的实际AI用例或数据集,可通过电子邮件aiusecase@gsma.com进行贡献。
  2. 加入Open-Telco基准测试社区: 参与讨论,获取最新的基准测试洞察,并与领先的电信公司、AI供应商和研究人员合作,请加入Otellm Hugging Face社区。

Open-Telco倡议将继续扩展基准测试,整合新的数据集、用例和评估指标。通过您的参与,可以共同推动电信行业中人工智能的标准化、透明化和高效应用。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/gsma-telco-llm-only-27pc-on-5g-intent-gen.html

评论(0)
暂无评论,快来抢沙发~
GSMA发布电信领域大型语言模型基准测试2.0,评估LLM在电信应用中的表现,涵盖网络管理、配置和故障排除等核心任务。基准测试包括TeleQnA、TeleLogs、TeleYAML等数据集,旨在推动电信行业人工智能的标准化和应用。
发布于 2025-12-04
查看人数 144
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。