讲者简介:戴国浩,无问芯穹联合创始人兼首席科学家,上海交通大学副教授。主要研究方向为稀疏计算电路与系统,在相关领域的国际顶级会议和期刊上发表论文80余篇,谷歌学术施引四千余次。发表论文曾4次获最佳论文奖(FPGA’25,ASP-DAC’25,DATE’24,ASP-DAC’19)和3次获最佳论文奖提名。担任领域内多个国际会议TPC成员和期刊审稿人、Ph.D. Forum at DAC 2024联席主席等职务。曾参与指导学生获ACM 2021 SRC 全球第三,MICRO 2020 SRC全球第一。个人荣获2024 MIT TR35、2024算力中国·青年先锋人物(全国每年10人)、2022 WAIC 云帆奖、2021 NeurIPS BIGANN竞赛全球冠军等荣誉。戴国浩作为联合创始人在2023年创立了无问芯穹。公司致力于大模型软硬件协同优化平台的建设,助力我国下一代人工智能产业的生态建设与快速发展。无问芯穹发布的大模型算力底座“无穹Infini-AI”已支持20+模型在10+种计算卡上的一键式高效部署,实现行业最优计算效率与最低成本。报告题目:高效大模型推理优化研究报告摘要:AI Agent时代的到来正在重塑数据中心的竞争逻辑,算力需求指数级增长,数据中心加速向Token工厂演变,核心竞争力从单芯片性能转向单位Token推理成本的持续降低。基于此,本报告从云、端、协同三个层次展开:首先在云侧,通过算子优化、计算通信重叠、预填充/解码半分离、MoE投机加速等系统级技术协同,将单Token推理成本压降超10倍。紧接着在端侧,利用大小模型的预测一致性实现Token级智能路由,以平均5.6B激活参数超越14B模型性能。最后通过端云协同,创新"本地脱敏—云端推理—本地回填"三段式架构,在隐私数据不上云的前提下将云端API成本降低70%以上。通过跨算子、集群、端云的全栈软硬协同设计,有望构建下一代高效率、大规模Agentic Infra。
李清 研究员鹏城国家实验室
讲者简介:博士,鹏城国家实验室研究员、IEEE高级会员、广东省青年拔尖人才/深圳市高层次人才,在下一代互联网领域累计发表高水平学术论文200余篇,含CCF-A类论文90余篇(一作及通讯70余篇)。先后获得清华大学计算机科学与技术系优秀博士毕业论文、ACL 2024 outstanding paper award、IWQoS 2018 Best Paper(唯一)、IEEE LCN Best Paper Candidate等,承担国家自然科学基金(面上及青年)、国家重点研发计划子课题等多项重大课题。报告题目:以智能为中心的下一代网络架构——智能分发网络IDN报告摘要:人工智能技术的蓬勃发展正在重塑互联网的角色。在此背景下,用户对网络的需求正从传统的节点互联和内容访问,逐步转向获取由大模型驱动的智能服务。当前,AI服务主要采用以云端集中推理为主的部署模式,面临时延与抖动较高、广域网流量负担重、分布式算力资源利用不足,以及隐私保护和治理压力不断增加等问题。本报告提出智能分发网络(Intelligence Delivery Network, IDN),一种将AI能力视为可交付网络服务的新型互联网架构。其核心思想是,根据用户请求的地域分布、分布式算力资源的可用性,以及隐私、安全等策略约束,在云、区域、边缘和本地等多层分布式异构算力环境中,对智能能力进行分发、部署、选择、复用和验证。本报告将介绍IDN的系统设定,定义其核心架构,并讨论智能能力抽象、算力资源整合、需求驱动部署、智能请求路由、状态感知缓存和信任管理等机制如何协同支撑分布式AI服务。IDN为构建人工智能时代的互联网架构提供了一条可行路径,有望使AI能力以更加可获得、高效、可信和及时响应的方式服务于多样化应用需求。
评论 0