2026年3月9日

长城汽车加速转型发展,消息总线升级护航业务
在智能汽车产业快速发展的背景下,车联网服务(TSP)已成为主机厂从“硬件制造”向“数据驱动服务”转型的关键引擎。长城汽车_(__https://www.gwm.com.cn__)_正加速从传统汽车制造商向“全球化智能科技公司”转型,以智能网联技术为核心,构建覆盖研发、生产、服务全链条的数字化生态。其云平台战略聚焦“软件定义汽车”,通过云原生技术、分布式架构与数据驱动能力,打造“车路云一体化”的智能出行解决方案。 消息总线作为云平台核心基础设施,承载跨业务异步集成与事件驱动,是支撑复杂业务流程自动化与实时数据交换的关键。随着业务规模与接入系统持续增长,长城汽车对消息总线提出更高的稳定性、可用性与扩展性要求。同时,在业务全球化与合规要求趋严的背景下,多云架构可增强运营韧性,实现资源优化与灵活调度,避免单点故障影响关键业务流程,保障业务连续性与体验一致性。 基于上述诉求,长城汽车对消息总线进行全面升级,核心目标是构建跨云双活能力:在故障场景下快速切换并保持业务连续,同时提升高并发接入下的稳定性与运维效率。本次升级引入阿里云云消息队列 RocketMQ 版的 Global Replicator,实现多云之间消息秒级同步,并结合 Serverless 弹性伸缩进一步增强系统可靠性,为全球车主“永远在线”的智能服务提供更稳固的消息底座。 长城汽车消息总线的核心特点 长城汽车消息总线的设计目标,是构建“消息、事件一体”、“中心、边缘一体”的事件总线平台,核心特点包括: 1. 标准化接入协议(HTTP):采⽤ HTTP 协议作为统一接入协议,构建标准化的消息⼊⼝和出⼝接⼊点,降低系统接⼊门槛,便于精细化流量管理与控制。 2. 稳定可靠的消息存储组件:选用 Apache RocketMQ 作为消息存储组件,凭借其稳定可靠、高性能与功能丰富等优势,充分满足企业级消息服务需求。 3. 支持高级消息特性:支持顺序消息(按特定顺序消费)与定时/延时消息(按指定时间投递)等能力,满足时间敏感、流程复杂场景的精确控制需求。 4. 集成长城集团云平台周边系统:打通主题创建、消费组配置、权限分配等资源管理与现有工单系统,实现从请求提交到资源分配的全流程⾃动化;对接钉钉通知实现业务通知与告警;对接服务治理平台实现全链路灰度。 5. 跨云高可用部署架构:⽀持跨多云环境双活/多活部署,确保单数据中⼼故障时可⽆缝切换⾄备⽤节点继续运⾏,并通过一致性机制保障业务连续性与数据完整性。 构建跨云双活架构的关键挑战 作为云平台消息中枢,消息总线支撑跨业务实时数据流转,其可靠性直接影响业务连续性和用户体验。为满足核心业务的高可用诉求,跨公有云双活成为关键目标,但在设计与落地过程中主要面临以下挑战: ▍1. 跨云传输实时性与业务容限的权衡 + 网络延迟叠加:跨公有云通常依赖公网传输,端到端延迟显著增加;叠加多云环境下的跨地域距离与同步协议开销,总延迟可能突破业务容忍阈值。 + 一致性代价:为保障双活集群数据强一致性,需引入额外的同步机制,会进一步加剧延迟。 ▍2. 混合云环境的兼容性与安全性挑战 + 版本与协议兼容性:现有自建 RocketMQ 4.x 集群存在深度定制,引入云上托管 RocketMQ 5.x 服务以降低运维复杂度,需要兼容开源 Apache RocketMQ 4.x 和云上托管服务 RocketMQ 版本。 + 多云安全隔离:跨云消息同步链路需加密传输与访问鉴权(如基于 VPC 对等连接的流量隔离)。 ▍3. 特殊消息类型的跨云一致性保障 + 顺序消息:如流水单、订单状态变更等场景,要求消息严格按 Key 分组并有序消费。跨云同步需确保同一分组消息不乱序(如阿里云集群主节点故障时,其他云备节点接管且不破坏顺序)。 + 延时消息:如营销活动定时通知等场景,依赖精确的时间控制。跨云同步需保证延时触发时间在毫秒级误差范围内,避免业务逻辑错乱。 ▍4. 成本与高可用性的平衡难题 双活部署需要在两朵云上独立部署完整集群(包括 Broker、NameServer、存储节点等)来保障高可用性,基础资源与运维成本接近翻倍。 长城汽车消息总线跨云双活方案 长城汽车消息总线跨云双活架构要点如下: + 消息总线基于其他云和阿里云跨云部署,通过专线通信确保网络可靠性。 + 管理服务部署在其他云,与消息总线服务解耦,避免管理服务故障影响消息总线运行。 + 跨云消息同步采用云消息队列 RocketMQ 版的 Global Replicator 实现秒级数据同步。 + 基于动态 DNS 实现双活节点流量按自定义比例分配,并在单云故障时支持一键切流。 ▍1. 双活与容灾能力 采用其他云自建 RocketMQ 与 阿里云云消息队列 RocketMQ 版构建多云双活架构,云消息队列 RocketMQ 版提供全球消息备份的容灾能力。 + 消息数据一致性:两地消息全量互备,数据可靠性更高;重试策略可在⽹络分割等极端场景下确保数据⼀致性和完整性;同步策略与备份方式可灵活配置,降低开发成本;内置消息过滤机制,避免消息在跨云传输过程中重复复制。 + 服务可用性:消息服务提供两地容灾能力,服务可用性更高,业务恢复更快,延续性更强。 + 高级消息支持:顺序消息按顺序复制,保障顺序语义;延时消息在源集群对消费者可见后(已到延时时间)再复制到目标集群,保障延时语义,消费端可⽴即消费。 + 同步能力弹性可扩展:Global Replicator 同步链路可弹性扩展,以满足低延时同步要求。 + 流量自定义分配:动态 DNS 支持灵活分配双活节点流量,并可结合健康检测自动切换。 ▍2. 版本兼容 + 云消息队列 RocketMQ 版 5.x 系列兼容开源 RocketMQ 4.9 SDK,业务逻辑无需改造;在收发可靠性与多副本存储方面提供保障,并提供弹性规格以应对突发流量。 + 服务可用性:自建集群缺少 SLA 保障,故障恢复依赖自运维。而云消息队列 RocketMQ 版天然支持多可用区部署,具备同城容灾能力,服务可用性最高可达 99.99%。 + 管控适配:云消息队列 RocketMQ 版提供标准管控 API 与可观测数据,便于与消息总线进行管控与运维集成。 ▍3. 高级特性消息 云消息队列 RocketMQ 版全球消息备份能力,在传输过程中保障源集群数据语义。 + 顺序消息:同步到目标集群时保持与写入源集群的顺序一致。 + 定时消息:以“源集群消息对消费者可见”为同步触发条件。 ▍4. 降本增效 汽车行业流量波动明显,云消息队列 RocketMQ 版 5.x Serverless 系列可根据实时负载自动弹性伸缩、按量付费,无需预估和配置实例规格。相比“按峰值预留并叠加冗余”的方式,可显著降低资源闲置成本。 消息总线全面升级的关键价值 ▍1. 能力升级:面向全球业务的消息底座 + 技术领先性:依托云消息队列 RocketMQ 版千万级 TPS 吞吐与毫秒级低延迟,构建跨云多活架构的车联网消息平台。通过“多地域集群 + 逻辑 Topic 分区”实现车辆数据就近接入与跨云无缝路由,突破传统架构单云单点的瓶颈,支撑全球化业务布局。智能流量调度跨域传输延迟降低 30% 以上。 + 架构先进性:云消息队列 RocketMQ 版 5.0 采用云原生架构(计算存储分离、无状态代理层),实现资源弹性伸缩与故障秒级隔离。结合 Serverless 化部署,提升扩容效率与资源利用率,支撑突发流量场景(如大规模 OTA 推送)平稳运行。 ▍2. 稳定可靠:多云互联下的全链路容灾 面对服务商级网络中断等极端场景,基于云消息队列 RocketMQ 版的跨云、跨地域的多活容灾体系,通过三级容灾防护实现“零数据丢失、零感知切换”的高可用: + 同城双活:基于阿里云多可用区(AZ)部署,RPO=0、RTO + 跨云灾备:跨云异步复制,保障核心业务数据跨地域冗余; + 智能故障自愈:通过流量染色与灰度路由自动隔离异常节点,结合 AIOps 预测潜在风险,故障恢复时间缩短至分钟级。 ▍3. 弹性降本:Serverless 系列按需弹性 借助云消息队列 RocketMQ 版 Serverless 系列,实现“按量付费 + 弹性容量”的轻量化运维: + 成本直降 50%+:按实际吞吐计费,闲时资源自动释放,降低资源与运维成本; + 敏捷创新:开发人员通过 API 分钟级接入消息服务,无需关注底层基础设施,新功能上线周期缩短 20%。 重塑车联网服务边界,驱动产业智能升级 长城汽车车联网 TSP 平台的跨云多活升级,不仅是技术架构的迭代,更是对“用户价值优先”理念的践行。借助阿里云云消息队列 RocketMQ 版,长城汽车构建了高可靠、高性能、高性价比的全球车联网服务基座,为未来 V2X 协同与个性化用户服务奠定坚实基础。 面向智能汽车竞争的“下半场”,长城汽车将持续以技术领先定义行业标准,让每一辆车成为万物互联世界中最可靠的智能节点,与全球合作伙伴共建车联网新生态。
作者:锐信、长城汽车智能网联云平台团队、家泽、复礼
#行业实践

2026年3月9日

核桃编程:青少年编程教育领先企业面临的核心挑战
核桃编程是青少年编程教育行业的领先企业。自 2017 年 8 月成立以来,核桃编程通过打造智能实操产品与服务矩阵,发展成为了包含编程系列产品、编程硬件、赛级展服务、素质延展产品及数字出版物的多元化公司。在落实科学教育加法的实践之路上,核桃编程致力于提高青少年的科学素养,激发他们对学习的热爱,并以此培养未来科技创新人才。 随着业务规模快速增长,平台对“精准调度、金融级可靠性、极致并发”的要求显著提升。如何为千万学员提供稳定、流畅且公平的在线学习体验,成为技术团队的核心课题。 1. 在线考试的精准调度难 在线考试涉及组卷、开考、防作弊检测、阅卷、成绩发布等多环节,需严格按时间节点触发。传统调度方式在复杂场景下难以实现精准、高效触发,可能影响学员体验与教学公平性。 2. 交易链路的状态一致性风险 课程购买、退款等核心链路对请求处理顺序与状态一致性要求极高,需要确保交易过程可靠、安全。随着业务规模扩大,业务系统对交易处理的有序性和最终一致性要求进一步提高。 3. 直播互动流量洪峰难应对 在直播高峰期,直播课的答题、弹幕、课件同步等互动功能会产生瞬时激增的消息量。传统消息服务在弹性扩展与资源利用率方面仍有优化空间,难以高效应对流量洪峰。 技术破局:阿里云 RocketMQ 构建“数智底座”核心引擎 在对可靠性、性能、可扩展性等多个维度进行深度评估后,核桃编程选择阿里云云消息队列 RocketMQ 版作为核心消息中枢,并通过关键能力逐一破解难题: 1. 延迟消息:让考试流程拥有“智能时钟” 将“收卷后 5 分钟启动阅卷”等关键环节封装为延迟消息,由 RocketMQ 定时精准投递。由此告别轮询调度,实现全流程自动化与零人工干预,显著提升阅卷效率和考务处理效率。 2. 顺序消息:为交易链路加上金融级“原子锁” 在支付、退款等关键操作中启用 RocketMQ 顺序消息,确保同一用户请求严格串行处理。结合分布式事务能力,实现“扣款→开课→通知”链路最终一致性,保障交易过程安全可靠。 3. 广播消息 + 弹性架构:直播互动的“稳定器” 直播辅助指令通过广播消息触达网关实例,确保课件同步与互动指令全域生效。同时,依托 RocketMQ 的流量削峰能力,平滑承接瞬时百万级消息洪峰,保障直播体验稳定、流畅。 _云消息队列 RocketMQ 版产品架构图_ 方案优势:充分释放云原生红利,运维与成本双重优化 1. 弹性伸缩,优化资源使用效率 采用阿里云 RocketMQ 按需使用、按量付费的模式与自动扩缩容能力,课中高峰秒级扩容保障稳定性,课后低谷自动缩容避免资源浪费。相比常备冗余服务器的传统模式,有效提升资源利用率、降低消息服务成本。 2. 全托管服务,提升技术团队效能 阿里云 RocketMQ 全托管服务提供高可用保障、跨可用区容灾、实时监控告警,降低技术团队对基础设施运维工作的投入,更聚焦教学产品创新,提升技术团队效能。 3. 精细化成本管控,提升成本管理效率 通过消息类型智能选型(如非关键场景用普通消息替代广播消息)、流量分时调度等方式,进一步优化资源消耗,让消息服务支出更清晰可控,有效提升成本管理效率。 业务价值:技术驱动体验升级与创新加速 核桃编程与阿里云 RocketMQ 的深度合作,带来多维度价值提升: + 学员体验升级:考试流程零延迟精准触发、直播互动毫秒级响应,学习体验更稳定顺畅,用户满意度提升显著; + 业务安全加固:交易链路顺序与一致性更有保障,实现金融级别的安全可靠,进一步夯实业务安全与用户信任; + 业务创新加速:构建稳定可靠的消息底座,为 AI 学情分析、个性化推荐等新场景快速创新落地提供坚实支撑。 核桃编程与阿里云 RocketMQ 的合作,是教育科技与云原生技术深度融合、推动业务高质量发展的最佳实践。从考试自动化到直播高并发,从成本优化到运维提效,阿里云 RocketMQ 以“精准、可靠、弹性”的核心能力,为核桃编程业务稳定运行与持续创新提供有力支撑。 未来,双方将持续探索消息技术在实时学情反馈、AI 互动教学等场景的创新应用。阿里云亦将携手更多教育企业,以云原生基础设施助力教育数字化升级与高质量发展。
作者:九通、复礼、文婷
#行业实践

2026年2月26日

秒触达、零资损:亲宝宝基于 Apache RocketMQ 支撑千万家庭实时互动与成长记录
AI 助成长:「亲宝宝 APP」千万 MAU 下的架构挑战 亲宝宝是一家专注于家庭育儿领域的移动互联网公司,其核心产品「亲宝宝 APP」聚焦性化育儿服务,集成长记录、育儿知识、早教内容、家庭共享、智能推荐及 AI 育儿助手等功能于一体,致力于打造一个围绕儿童成长的家庭私密社交与育儿服务平台。 自 2012 年成立以来,亲宝宝注册用户总数已突破一亿,月活跃用户(MAU)超千万,日均上传照片/视频数量达数百万条,平台沉淀了海量的用户行为数据和成长内容数据。其技术架构需要支撑高并发写入、实时消息触达、个性化推荐、数据一致性保障等复杂场景,对底层中间件系统提出了极高要求。 高并发、强一致性与实时触达的三重压力 随着用户规模持续增长,亲宝宝面临三大核心挑战: 1. 高频写入与异步处理压力 用户每日上传海量成长影像,需在保证体验的同时完成缩略图生成、AI 标签识别、多端同步等后处理任务,传统同步调用链路难以支撑。 2. 跨设备实时通知的可靠性要求 家庭成员间的新动态(如“爸爸上传了宝宝照片”)需在秒级内精准触达所有关联成员,且不能丢失或重复。 3. 分布式事务场景下的数据一致性难题 如用户完成任务获得积分、兑换权益等操作,涉及账户、订单、通知等多个微服务,必须保障“操作成功则消息必发”,否则将导致用户权益异常。 面对上述挑战,亲宝宝亟需一个高吞吐、低延迟、支持事务语义、具备完善可观测性的消息基础设施。 为什么选择阿里云 RocketMQ 5.x? 经过多轮技术评估,亲宝宝最终选择全面迁移至阿里云云消息队列 RocketMQ 版 5.x Serverless 系列。 核心原因如下: 1. Serverless 架构实现客户端轻量化 RocketMQ 5.x Serverless 通过引入独立的 Proxy 组件,将原本内嵌于客户端的路由、协议解析、重试等逻辑下沉至服务端,客户端仅需极简 SDK 即可完成消息收发。该架构不仅提升了系统的可维护性与安全性,也大幅降低了移动端的网络与内存开销,完美适配亲宝宝高并发、低功耗的终端环境。 2. 秒级精准延迟消息 RocketMQ 5.x Serverless 支持高精度延迟消息,通过秒级延迟消息实现“未读通知二次触达”、“临时草稿自动清理”、“成长里程碑倒计时提醒”等柔性业务逻辑,在提升用户体验的同时优化系统资源利用率。 3. 全链路可观测性 RocketMQ 5.x Serverless与阿里云 ARMS、SLS 等可观测产品深度集成,提供了从生产到消费的全链路消息轨迹追踪、消费延迟告警、堆积分析等运维闭环,极大简化运维工作,显著提升故障定位效率。 4. 云原生弹性伸缩与成本效益 亲宝宝的业务流量具有显著的“节日效应”,每逢春节、六一儿童节、开学季等高峰期,用户上传照片量可激增 3–5 倍,家庭通知消息峰值可达平日的 4 倍。过去自建 RocketMQ 集群需提前数周预估容量并手动扩容,成本高昂且难以精准预估偏差,导致资源浪费或服务降级。基于 RocketMQ 5.x Serverless,亲宝宝实现了真正的按需付费与秒级自动弹性伸缩,从容应对流量洪峰,同时大幅优化了资源成本。 核心应用场景与 RocketMQ 5.x 落地实践 ▍场景一:成长相册——高吞吐的异步处理流水线 当用户上传照片后,前端服务仅需完成元数据落库,并立即向 Topic_Photo_Process 发送一条普通消息。后端多个独立消费者组并行消费,分别执行各自负责的异步任务,如:图像压缩与多尺寸生成、AI 模型打标(如“笑脸”、“户外”等)、家庭成员推送通知、写入搜索索引等。得益于 RocketMQ 5.x Serverless 的百万级 TPS 吞吐能力与批量消费优化,整条处理流水线延迟稳定在 200ms 以内,系统资源开销降低 40%。 ▍场景二:成长印迹定时解锁——高精度的延迟消息应用 当用户为宝宝设置“时光信件”(如“18 岁生日开启”)或重要纪念日(如“百天纪念”)倒数提醒时,业务系统只需向 Topic_Growth_Reminder 发送一条延迟消息,延迟时间可精确到秒,跨度可从几分钟到数年。RocketMQ 5.x 服务端内置的高精度定时调度能力,确保消息在预定时刻被准时唤醒并投递。该方案极大简化了定时任务的实现,避免了传统数据库轮询带来的性能损耗与架构复杂性,为用户提供了温暖而可靠的长期约定功能。 ▍场景三:积分权益——强一致的事务消息保障 在用户完成“每日签到”等任务时,系统需同时完成“更新任务状态”和“发放积分/徽章”等操作。亲宝宝采用 RocketMQ 5.x 的事务消息机制来保障最终一致性,核心流程如下: 1. 应用发起本地事务(扣减任务状态); 2. 若成功,则向 RocketMQ 提交一条“半消息”; 3. RocketMQ 回查本地状态,确认后将已提交的消息投递至 Topic_Reward_Delivery; 4. 下游服务消费消息,完成发放徽章并触发 Push 通知。 该方案在亲宝宝过去一年的生产环境中,实现了事务消息成功率高达 99.999%,达成了积分权益业务的“零资损”目标。 成效与价值 通过全面采用阿里云 RocketMQ 5.x Serverless,亲宝宝在技术与业务层面均获得了显著收益: 更重要的是,RocketMQ 5.x 的 Serverless 架构将复杂逻辑下沉至服务端 Proxy,提供的轻量化 SDK 显著降低了亲宝宝移动端的网络开销与内存占用,为亿级用户的流畅 App 体验提供了坚实保障。 未来展望 AI 时代下,亲宝宝与阿里云消息团队紧密合作,积极探索 RocketMQ 5.x 在 AI 场景下的更多前沿能力: + 使用 RocketMQ LiteTopic,打造 AI 场景下 MultiAgent 的异步通信,解决长耗时调用阻塞痛点。 + 采用“会话即主题”——会话独占 LiteTopic,基于状态持久化机制,保障了会话的连续性和完整性,提升了会话用户体验,减少了会话需求重试成本。 + 利用 RocketMQ 优先级消息,实现算力资源最大价值分配,保障高优先级任务的资源分配。
#行业实践

2026年2月25日

古茗奶茶:借助 RocketMQ Serverless 实现下单丝滑、大促自由,综合降本 40%
最近,“千问请全国人民喝奶茶”活动火爆全网,这种瞬时爆发的流量洪峰已成为新茶饮行业的常态化挑战。新茶饮行业的数字化演进已从最初的基础设施上云,演进为深度的云原生架构共创与能力共建,再到为 AI 原生提供确定性基座,古茗奶茶在阿里云云原生上的深度实践,正是这种演进的代表。 在新茶饮行业,每一次刷屏级的营销活动,每一杯奶茶的“丝滑”下单,背后都是对数字化基座的严峻考验,是一场应对瞬时高并发流量的技术硬仗。 作为拥有超万家门店的行业头部品牌,古茗不仅要支撑海量日常订单,更需在“周三会员日”等大促时刻,从容应对流量陡增,确保系统稳如磐石。面对高并发下的极速响应与弹性需求,古茗如何实现“大促自由”? 本期《云故事探索》栏目走进古茗,揭秘支撑新茶饮“万店时代”的云原生力量。 从口味之争到体验之战,技术成为新茶饮竞争力 “如今,一杯奶茶的竞争已不仅限于口味。”古茗科技技术运维负责人刘星光表示,在新茶饮这条日趋激烈的赛道上,“口味决定品牌的记忆度,但真正拉开差距的,是门店高峰期的稳定体验、新品迭代的速度,以及消费者触达的精准度。” 对于古茗而言,数字化的核心价值并非上线了多少系统,而是打通了供应链、门店与营销等环节,以数据驱动决策,让成功的运营模式能在全国范围内快速复制。 这意味着技术团队的角色已从“系统维护者”升级为“业务赋能者”,不仅要保障系统稳定运行,更要支撑业务的高速增长与敏捷创新。 _古茗科技 技术运维负责人 刘星光_ 架构升级:微服务+DevOps,实现业务敏捷与体验统一 为支撑万店扩张与高频营销,古茗构建了以“微服务 + DevOps”为核心的云原生架构。订单、会员、库存、营销等核心业务被拆分为独立微服务,可独立开发、部署与扩缩容。其中,阿里云微服务引擎 MSE 作为服务注册与配置中心,在保障系统高可用的同时,也让古茗更聚焦业务研发。 架构升级带来的直接收益是迭代速度显著提升。刘星光表示:“一个新的优惠策略,如今可在数天内完成验证并上线,实现快速试错、快速复制。”2025 年,古茗完成底层架构的全面云原生升级,确保全国用户下单体验的一致性。 但微服务化也带来了调用链路复杂、峰值压力集中等挑战。要在流量洪峰下保持系统稳定,“异步解耦”与“流量削峰”成为关键,这正是消息队列的核心价值。 大促自由:RocketMQ Serverless 稳定可靠、弹性降本 每周三“会员日”,古茗中午 12 点的瞬时订单量可达平日数倍。传统架构下,需提前数天甚至数周预估流量、规划资源并手动扩容,不仅耗时费力,还伴随着稳定性风险与资源浪费。 在支付、营销、库存等核心链路中,古茗引入了阿里云云消息队列 RocketMQ 版 Serverless 系列,精准解决了三大痛点: 1. 极致弹性,告别容量焦虑与资源浪费 面对十万级 TPS 的瞬时并发请求,RocketMQ Serverless 无需人工干预即可秒级自动扩容,保障消息高吞吐、低延迟、不丢失、不积压,并在峰值结束后自动释放资源,真正实现按需使用、按量付费。据测算,该方案帮助古茗节省超 40% 成本。 2. 事务消息,保障业务数据最终一致性 在“支付成功后扣减库存并发放优惠券”等场景,数据一致性至关重要。RocketMQ 事务消息确保支付主流程与下游操作的最终一致性。即使下游服务短暂异常,可靠的重试机制也能保证业务最终成功,从根源上避免因数据不一致导致的资损与客诉风险。 3. 稳定可靠,让技术团队聚焦业务创新 RocketMQ 历经阿里巴巴十余年“双十一”万亿级数据洪峰验证,具备稳定可靠的 SLA 保障,并提供消息过滤、顺序消息等功能及完善的可观测工具,帮助古茗技术团队从繁琐的维稳工作中解放出来,更专注于业务创新。会员日由此成为业务增长的“加速器”,而非技术压力的“爆发点”。 _RocketMQ Serverless 架构及弹性示意图_ “拥抱云原生后,我们终于可以放手策划大规模活动了。”刘星光的话语中透露出十足的底气,“以前最怕系统崩溃,现在我们只需关心活动玩法能否打动用户。”这份底气,正源于以 RocketMQ Serverless 为代表的阿里云原生技术栈。 稳定第一:全链路可观测,让风险“可见可控” “稳定,永远是第一位的。”刘星光反复强调,“第一是稳定,第二是效率,第三是成本。” 为保障稳定性,古茗基于阿里云日志服务 SLS、应用实时监控服务 ARMS 等产品,构建了覆盖底层基础设施到上层业务逻辑的全链路可观测体系,实现多维度监控与实时告警,全面掌握系统状态。 刘星光表示:“任何一笔异常订单(如支付或领券失败),我们都能通过全链路追踪,在分钟乃至秒级内定位根因,从而快速修复,保障用户体验。” 从工具采纳到能力共建,从云原生迈向 AI 原生 古茗与阿里云的合作,已从工具采纳深化为场景共创(如优化事务消息延迟)与能力共建(如增强消息轨迹)。古茗真实的业务场景(如节假日大促、爆款联名发布)成为 RocketMQ Serverless 等阿里云产品的“极限压测场景”与“最佳实践样板”;阿里云则将经过古茗验证的架构模式产品化,赋能更多零售客户,形成相互成就、共同成长的深度伙伴关系。 面向未来,古茗正积极探索 AI 与业务的深度融合,包括智能推荐、经营分析、AIGC 营销等。他们的思路清晰而坚定:并非“从云原生切换到 AI 原生”,而是在云原生基础上,将 AI 能力逐步叠加,让技术架构与业务共同演进。 “云原生解决了弹性、稳定和标准化的问题,这恰恰是 AI 大规模落地的前提。”刘星光总结道,“只有底座足够稳,AI 才能真正服务于业务,而不是制造新的复杂性。” 一杯奶茶,一场深刻的技术革命 从一杯奶茶的“丝滑”下单,到一场大促的从容应对,古茗的故事是新茶饮数字化转型的缩影,也是云原生技术释放业务潜能的证明:新消费品牌的护城河,正在从产品和供应链向技术深度延伸。 以云消息队列 RocketMQ 版为代表的阿里云云原生产品,正凭借其极致弹性、高稳定性和领先技术,帮助像古茗这类高速发展的企业卸下技术包袱,在激烈的市场竞争中轻装上阵,将更多精力聚焦于业务创新,让“下单丝滑,大促自由”成为新常态。 未来,随着云原生与 AI 的进一步融合,每一杯奶茶的背后,都将蕴藏着一个更智能、更高效、更稳定的数字世界。
#行业实践

2025年12月1日

打造你的专属 AI 导游:基于 RocketMQ 的多智能体异步通信实战
前言 在现代 AI 应用中,多智能体(MultiAgent)系统已成为解决复杂问题的关键架构。然而,随着智能体数量增多和任务复杂度提升,传统的同步通信模式逐渐暴露出级联阻塞、资源利用率低和可扩展性差等瓶颈。为应对这些挑战,RocketMQ for AI 提供了面向 AI 场景的异步通信解决方案,通过事件驱动架构实现智能体间的高效协作。本文将探讨和演示如何利用 RocketMQ 构建一个高效、可靠且可扩展的多智能体系统,以解决企业级 AI 应用中的核心通信难题。 多智能体系统的通信需求与核心挑战 随着 AI 应用的复杂度不断提升,单智能体(AI Agent)因其能力边界和知识局限,已难以独立胜任动态、多维度的决策任务。因此,多智能体(MultiAgent)系统正迅速成为构建复杂 AI 应用的核心范式。MultiAgent 系统通常由一个主智能体(Supervisor Agent)负责将复杂任务分解,并分发给多个具备特定领域能力的子智能体(Sub Agent)并行执行,最终汇聚结果以达成共同目标。 整个系统的智能与效能,高度依赖于智能体间通信的效率与可靠性。为了实现不同厂商、不同技术栈开发的智能体高效协作,行业需要为它们建立一套标准化的“交互协议”与“工作流程”,例如 Google 提出的 A2A(AgenttoAgent)协议。然而,底层的通信模式仍是决定系统性能、可靠性和成本效率的关键。传统的同步调用模式在简单的“一对一”交互中尚可应对,但在 MultiAgent 系统这种涉及多个长周期任务并行协作的复杂场景下,其弊端逐渐凸显,主要体现为三大核心挑战: 1. 同步阻塞与性能瓶颈:在同步调用模式下,主智能体分发任务后必须等待子智能体返回执行结果,才能继续下一步规划。在包含多个长耗时任务的复杂链路中,这极易引发“级联阻塞”,严重限制了系统的并发处理能力和整体吞吐量,导致协作效率低下,系统难以扩展。 2. 系统可用性挑战:同步通信的强依赖特性,使得智能体间的调用关系如同“串联电路”,且通常缺乏可靠的重试与容错机制。任何一个智能体节点的故障或超时,都可能导致整个任务链路中断。任务失败不仅影响用户体验,还会造成中间过程消耗的宝贵算力资源被浪费。 3. 消费调度与成本效率困境:MultiAgent 系统中,上下游智能体的吞吐量差异巨大,任务负载也常出现波峰波谷。若缺乏精细化的流量控制与差异化调度能力,流量洪峰可能导致部分智能体服务过载甚至“雪崩”。同时,在算力资源有限的情况下,系统无法保证高优任务被优先处理,难以实现算力利用率的最大化,最终陷入“忙时过载、闲时浪费”的资源困境。 这些挑战共同制约了多智能体系统的性能、可靠性与成本效率,成为阻碍复杂 AI 应用规模化落地的重要因素。 RocketMQ for AI:构建智能体高效协作的异步通信引擎 要解决上述挑战,核心在于将系统架构从“请求响应(RequestReply)”的同步调用模式,转变为基于事件驱动的异步通信模式。RocketMQ for AI 通过一系列专为 AI 场景设计的特性,为多智能体系统的可靠通信与高效协作构建了一个强大的异步通信引擎。 1. 异步通信,提升协作扩展性:在异步通信模式下,主智能体将任务作为“消息”发送至消息队列后,便可立即返回处理其他工作,无需等待子智能体处理和反馈;子智能体作为“消费者”独立地从队列中获取任务并进行处理。这种“发布订阅”模式彻底消除了级联阻塞,使主智能体可以轻松地向多个子智能体并发分发任务,极大提升了协作效率与系统吞吐量,缩短了复杂任务的端到端时长。RocketMQ 专为 AI 场景推出的轻量主题模型(LiteTopic),支持百万级轻量资源与高性能动态订阅,为系统的动态扩展提供了坚实基础。 2. 持久化与重试机制,提升系统可用性:异步解耦打破了智能体间的调用强依赖,显著提升了系统整体可用性。RocketMQ 将智能体通信的请求和结果均持久化到消息队列,这相当于为任务处理流程提供了 checkpoint 能力。即使某个智能体服务短暂宕机或网络故障,任务消息也不会丢失,待服务恢复后可继续处理。结合 RocketMQ 内置的可靠重试与死信队列机制,可以确保任务最终成功交付,避免因瞬时故障导致整个任务链路失败和算力资源浪费,极大提升了系统的韧性和可用性。 3. 精细化调度,保障稳定性与优化成本效率:面对稀缺且昂贵的 AI 算力资源,RocketMQ 提供了丰富的消息调度策略,以实现成本与效率的最优平衡。通过控制消息的消费速率,可以对任务请求进行缓冲,起到“削峰填谷”的作用,防止下游智能体被突发流量冲垮,保护服务稳定性。通过优先级队列,可以确保在有限的算力资源下,高优先级任务能够被智能体优先处理,实现资源利用率的最大化。 场景实践:通过 RocketMQ 实现 MultiAgent 系统异步通信 下图展示了一个基于 RocketMQ LiteTopic 实现的多智能体异步通信的典型流程,包含一个主智能体(Supervisor Agent)和两个子智能体(SubAgent)。 1. 接收请求阶段:为每个 Sub Agent 创建一个 Topic 作为请求任务的缓冲队列。 2. 返回结果阶段: a. 为 Supervisor Agent 创建一个用于接收响应结果的 Topic,并让其订阅这个 Response Topic。该 Topic 可采用 RocketMQ 专为 AI 场景新发布的 Lite Topic 类型; b. 当 SubAgent 完成任务后,它会将结果发送至该 Response Topic,可以为每个独立任务动态创建一个专属的子 LiteTopic(例如,以任务 ID 或问题 ID 命名); c. Supervisor Agent 通过 MQ 的异步通知机制实时获取这些子 LiteTopic 中的结果,并可通过 HTTP SSE(ServerSent Events)等协议推送给 Web 端。 场景示例: 现在,我们通过一个具体的天气查询与行程规划 MultiAgent 系统实例,展示如何利用 RocketMQ 实现智能体间的异步通信与高效协作。 1. 方案架构 为简化 MultiAgent 系统的部署过程,我们将在 1 台云服务器 ECS 上部署 3 个独立的 Agent—— 1 个主智能体(Supervisor Agent)、一个负责天气查询的子智能体(Weather Agent) 和一个负责行程规划的子智能体(TravelAgent),并且通过云消息队列 RocketMQ 版实现 Agent 之间的异步通信。 2. 实施步骤 a. 创建资源: i. 创建专有网络 VPC(为云服务器 ECS 等云资源构建云上私有网络)、云服务器 ECS(用于部署 MultiAgent 系统)、云消息队列 RocketMQ 版(提供消息队列服务,实现 Agent 之间的异步通信)。 ii. 在云消息队列 RocketMQ 版实例下创建 3 个 Topic:WeatherAgentTask(普通消息,用于 WeatherAgent 接收任务消息)、TravelAgentTask(普通消息,用于 TravelAgent 接收任务消息),WorkerAgentResponse(轻量消息,用于 SupervisorAgent 接收各个子 Agent 返回的任务结果)。 iii. 在云消息队列 RocketMQ 版实例下创建 3 个 Group:WeatherAgentTaskConsumerGroup(消费模式 CLUSTERING,并发投递,用于消费 WeatherAgentTask 的普通消息)、TravelAgentTaskConsumerGroup(消费模式 CLUSTERING,并发投递,用于消费 TravelAgentTask 的普通消息)、WorkerAgentResponseConsumerGroup(消费模式 LITE_SELECTIVE,顺序投递,用于消费 WorkerAgentResponse 的轻量消息)。 b. 创建智能体应用: i. 开通大模型服务平台百炼(用于调用模型服务),并获取百炼 API Key。 ii. 在百炼的应用管理页面,根据示例文档中(在此不详细展开)提供的模型参数和提示词,分别创建并发布两个智能体应用(天气助手 Agent、行程助手 Agent)。 c. 部署智能体应用:远程连接云服务器 ECS 根据提供的执行脚本部署示例应用程序。等待应用启动完毕,大约需要 3~5 分钟,直到终端显示 You 提示符,便可直接在终端中输入信息与智能体交互。 3. 效果验证 a. 输入帮我做一个下周三到下周日杭州周边自驾游方案。 b. 等待智能体执行任务,最终会返回结合天气信息的行程规划内容,过程如下: i. Supervisor Agent 接收用户输入,向消息队列发送一条消息杭州下周三到周日的天气情况怎么样?。 ii. Weather Agent 监听到上述消息,执行天气查询,并将结果发往消息队列。 iii.Supervisor Agent 监听到上述消息,获取了天气查询结果,然后向消息队列发送一条消息杭州下周三至周日天气已知,天气为,请基于此制定一份从杭州出发的周边2人3天4晚自驾游行程规划(下周三出发,周日返回),包含住宿、餐饮与景点推荐。 iv. Travel Agent 监听到上述消息,执行行程规划,并将结果发往消息队列。 v. Supervisor Agent 监听到上述消息,获取了行程规划结果并返回给用户。 c. 查看消息轨迹:在云消息队列 RocketMQ 版实例详情页,可以按 Topic 或按 LiteTopic 查询到相关的消息轨迹。 目前,该解决方案已在阿里云官网上线,欢迎点击即可部署体验~ 邀请您钉钉扫码加入 RocketMQ for AI 用户交流群,探索更多产品功能与应用场景,与我们共建 AI MQ 的未来!
#行业实践

2025年10月28日

PalmPay 基于 Apache RocketMQ 搭建非洲普惠金融“高速通道”
PalmPay:非洲领先的移动支付平台 PalmPay 是非洲知名的移动支付平台,目前主要在尼日利亚、加纳、坦桑尼亚、肯尼亚开展金融科技服务,提供包括电子支付、转账汇款、手机话费及流量充值、水电煤及有线电视等便民缴费服务。 自 2018 年成立以来,PalmPay 深耕非洲市场,也迅速成为非洲领先的金融科技公司,对非洲的金融格局产生了切实的影响。PalmPay 致力于提供安全、易用、创新的数字支付服务,获得了数百万用户和商家的信任与支持,推动了整个非洲大陆普惠金融的发展。 随着非洲基础设施的不断完善和互联网消费需求的持续增长,PalmPay 未来会拓展更多国家,不断实现更强大的技术创新和更广阔的地域覆盖,为更多非洲用户提供便捷的支付服务。通过在本地化内容领域的不懈深耕,致力于为非洲用户带来更方便、更多元的互联网体验。 高速增长下的“阵痛”:支付业务面临的技术挑战 作为一家金融科技公司,PalmPay 致力于为用户提供便捷、安全且灵活的移动支付与金融服务。随着业务规模持续扩张,用户基数与终端设备数量激增,对后台系统提出了更高要求。为了提升运营效率和服务质量,PalmPay 面临着以下技术挑战: + 交易事务一致性:在分布式系统中,业务逻辑通常涉及数据库操作和消息发送(如支付后发送扣款通知)。若数据库操作成功但消息发送失败,会导致数据不一致。传统方式需自行实现补偿机制,复杂且容易出错。 + 高效的消息处理:在高并发支付场景下,消息系统的性能至关重要。当业务量突增导致消息中间件性能下降时,会大幅增加平均响应时间,致使业务处理出现明显延迟,从而影响用户体验。 + 资源的弹性伸缩:按照业务峰值配置资源的传统方式,在业务低谷期会造成资源闲置浪费,当面对突发流量时,实例扩容速度较慢,可能无法在短时间内完成扩容,进而影响服务稳定性。 为应对上述挑战,PalmPay 采用了基于阿里云 RocketMQ 消息中间件——云消息队列 RocketMQ 版,显著提升了整体架构的稳定性和可扩展性,提高了消息处理效率,确保了高并发场景下的业务连续性,最终优化了用户体验。 破局之道:阿里云 RocketMQ 如何化解三大挑战 PalmPay 通过云消息队列 RocketMQ 版与业务系统集成的解决方案,结合其支付核心系统的特点,显著提升了整体架构的稳定性与可扩展性,优化了消息处理效率,确保了高并发交易场景下的业务连续性与数据一致性,从而进一步提升了用户体验和服务质量。此外,通过在本地进行私有化部署,满足了其合规性要求。 + RocketMQ 事务消息在支付业务中的应用:在支付业务中,用户完成交易后,系统需将支付结果(如支付成功/失败)实时推送至用户端(如 App 通知、短信或邮件),并确保支付系统内部的交易状态与消息推送系统保持一致。RocketMQ 事务消息通过“半消息(Half Message)”与“事务回查(Transaction Check)”机制,确保了本地事务提交与消息发送紧密耦合。只有本地事务提交成功,消息才会被真正发送并对消费者可见;若本地事务失败,消息则会被回滚或丢弃。该机制极大地保证了本地数据与消息通知之间的一致性。 + RocketMQ 在高并发交易处理中的作用:业务高峰期,PalmPay 面临巨大的交易并发压力。传统架构下,交易请求直接打到业务系统,容易造成系统拥堵甚至雪崩。为此,PalmPay 将 RocketMQ 作为交易异步处理的核心组件,通过消息队列实现交易请求的缓冲与削峰填谷。RocketMQ 的高性能写入能力和横向扩展架构,使其能够轻松应对突发流量,确保系统在高负载下依然保持稳定运行。同时,RocketMQ 的广播与集群消费模式支持多种消费策略,帮助 PalmPay 实现了灵活的负载均衡机制,进而提升了系统整体的吞吐能力和响应速度,SLA 稳定性支持 99.99%。 + 资源弹性伸缩与运维效率提升:结合阿里云 RocketMQ Serverless 的技术优势,PalmPay 实现了消息队列资源的按需弹性伸缩。系统可在业务低谷时自动释放闲置资源以降低运营成本,并在流量高峰时快速扩容以保障服务稳定性。同时,RocketMQ 提供了完善的消息追踪、监控告警和自动运维能力,显著降低了系统运维的复杂度,提升了整体运维效率。 通过这一系列基于 RocketMQ 的技术优化,PalmPay 成功构建了一个高可用、高可靠、高弹性的消息中间件体系。这不仅为非洲地区日益增长的数字支付需求提供了坚实的技术支撑,也为未来业务的持续扩展和全球化布局奠定了坚实的基础。 云消息队列 RocketMQ 版 5.x Serverless 系列核心优势 云消息队列 RocketMQ 版 5.x Serverless 系列基于存算分离架构,可在保证稳定性的前提下,通过资源快速伸缩实现资源使用量与实际业务负载紧密匹配,并支持按照实际使用量计费,从而有效降低运维压力和使用成本。 在业务波动较大的场景下,非 Serverless 实例(包年包月和按量付费)与 Serverless 实例在使用规格上存在明显差异,具体变化情况如下图所示: 云消息队列 RocketMQ 版 Serverless 实例具备灵活的资源伸缩能力,能够满足业务在不同发展阶段的资源需求。其核心优势如下: + 开箱即用,兼容开源版本:以业务应用为中心,使开发人员无需关注 Serverless 实例的资源规模与稳定性,能更专注于核心业务代码的开发,进而降低企业的运维成本。 + 自适应弹性:Serverless 实例采用动态资源调整策略,可根据实时业务负载自动弹性伸缩,企业因此无需预先估算并配置实例规格,减少资源闲置浪费。 + 按实际使用量付费:根据实际使用的消息量、Topic 资源、网络流量、存储等资源计算费用,并按小时结算,真正实现按量付费,从而节省使用成本。 展望未来:加速非洲普惠金融发展创新 通过采用阿里云云消息队列 RocketMQ 版,PalmPay 成功构建了一套高可用、高可靠、高弹性的消息中间件体系,全面提升了系统的稳定性、消息处理效率与业务连续性。云消息队列 RocketMQ 版在支付消息通知、高并发交易处理以及资源弹性伸缩等方面发挥了关键作用,有力支撑了 PalmPay 在非洲市场快速增长的数字支付需求。 借助云消息队列 RocketMQ 版的高性能、低延迟和灵活扩展能力,PalmPay 实现了支付业务的异步化、解耦化与智能化升级,不仅优化了用户体验,也显著提升了系统运维效率和业务响应能力。未来,随着 PalmPay 持续拓展更多金融服务场景,云消息队列 RocketMQ 版将继续为其提供坚实的技术底座,助力其在非洲乃至全球推动普惠金融的深入发展与数字化创新。
作者:横槊、建源、文婷、稚柳
#行业实践

2025年9月28日

海量接入、毫秒响应:易易互联基于 Apache RocketMQ + MQTT 构筑高可用物联网消息中枢
易易互联:打造安全、便捷、便宜的智能换电网络 易易互联科技有限公司成立于 2017 年,是吉利集团旗下汽车产业战略布局换电生态的全资子公司。依托吉利正向开发的 GBRC 换电平台架构,基于电池共享、车辆全生命周期运营,沉淀千项专利技术,积极参与国家换电标准制定,打造安全、便捷、便宜的智能换电网络,为营运市场提供更降本、更高效、更绿色的综合解决方案,让换电成为营运补能第一选择。 截至 2025 年 4 月,易易互联已布局和运营超 470 座换电站,覆盖了重庆、杭州、广州、成都、天津等 40 多个城市。计划到 2027 年,在全国建设并运营 2000 座换电站。 业务挑战:物联网通信架构如何支撑大规模换电网络? 随着换电网络的快速扩张,终端设备数量呈指数级增长,对底层物联网通信架构提出了前所未有的挑战。易易互联在采用 MQTT 协议支撑智能换电系统的过程中,面临三大核心业务难题: 1. 海量设备高并发连接与系统稳定性挑战 每座换电站集成机械臂、电池仓、充电模块、车辆识别系统、温控系统等多种物联网设备,同时需接入数万辆支持换电的营运车辆,形成一个终端数量庞大、分布广泛、持续在线的超大规模物联网网络。在此背景下,MQTT 服务必须支持数十万级设备的长连接并发接入。任何连接抖动或异常中断,都可能导致换电流程失败、车辆排队积压,严重影响用户体验。尤其在运营高峰时段,连接稳定性直接关系到换电效率与服务可用性,一旦出现系统级服务中断,将造成巨大的损失。 2. 高实时性与低延迟通信的严苛要求 换电流程高度依赖自动化与系统协同:从车辆进站识别、人车电池三者信息核验,换电指令下发、机械臂执行操作、车辆驶离,支付结算完成,整个流程需在几十秒内高效闭环。这对通信链路的实时性与端到端延迟控制提出了极高要求。尽管 MQTT 协议支持 QoS 机制保障消息可靠性,但在复杂场景下,仍可能出现延迟上升、响应滞后等问题。如何在确保消息不丢失的前提下,实现毫秒级指令响应与状态同步,成为系统架构设计的核心技术难点。通信延迟过高将直接拉长单次换电耗时,降低站点吞吐能力,削弱“高效补能”的核心竞争力。 3. 数据洪峰冲击与消息积压风险 在早晚交接班等用电高峰时段,多个换电站可能同时迎来大量车辆集中换电,短时间内产生海量设备状态数据上报,包括电池 SOC、温度、健康状态(SOH)、换电次数、故障码等关键信息。这种瞬时数据洪峰对 MQTT Broker 的消息吞吐能力构成巨大压力。若后端的数据分析、计费系统、调度平台等消费端处理能力不足,极易导致消息在 Broker 端积压,造成数据处理延迟。这不仅影响电池调度策略的实时优化和异常预警的及时触发,还可能引发计费延迟或错误,进而导致用户投诉,损害服务可信度。 综上所述,易易互联的业务高速增长对 MQTT 通信平台提出了“高并发、低延迟、强可靠、大吞吐”的综合要求。如何构建一个稳定、高效、可扩展的物联网消息中枢,已成为支撑其全国换电网络规模化运营与智能化升级的关键基础设施挑战。 解决方案:基于阿里云 MQTT+RocketMQ构建物联网消息中枢 为应对上述挑战,易易互联依托阿里云消息队列 MQTT 版与云消息队列 RocketMQ 版,构建了“边缘高效接入 + 中心弹性处理”的物联网通信新范式,全面提升系统的稳定性、可扩展性与业务连续性。 1. 基于阿里云 MQTT,实现海量终端的高效、稳定接入 阿里云消息队列 MQTT 版具备百万级并发连接能力与高可用集群架构,完美匹配易易互联换电站规模、数十万终端设备(换电站设备 + 营运车辆)的规模化接入需求。 + 高并发长连接支持 :通过云消息队列 MQTT 版的分布式集群架构,轻松支撑数万至数十万设备的稳定长连接,确保换电站机械臂、电池仓、温控系统及车辆终端始终在线、指令可达。 + 弱网优化与断线重连 :云消息队列 MQTT 版内置智能心跳机制与断线自动重连策略,有效应对地下车库、郊区等弱网环境,保障换电流程不因网络抖动中断。 + 端到端安全认证 :云消息队列 MQTT 版支持基于 X.509 证书、Token 的设备级身份认证,结合 Topic 级别的访问控制策略(ACL),杜绝非法设备接入,保障电池资产与系统安全。 2. 集成阿里云 RocketMQ,实现消息缓存与负载均衡 在高并发换电场景下,瞬时数据洪峰易导致后端系统过载。通过将阿里云消息队列 MQTT 版的消息流转至云消息队列 RocketMQ 版 ,构建“MQTT 接入 + RocketMQ 中转”的协同架构,实现消息的高效解耦与弹性处理。 + 消息缓冲与削峰填谷 :当早晚高峰出现大量车辆集中换电时,云消息队列 MQTT 版将设备上报的状态数据(如电池 SOC、温度、故障码)实时转发至云消息队列 RocketMQ 版。RocketMQ 作为高性能消息中间件,可缓冲突发流量,避免后端计费、调度、监控系统因瞬时压力过大而崩溃。 + 异步解耦与负载均衡 :后端业务系统(如电池调度平台、故障预警引擎、用户计费系统)以订阅方式从云消息队列 RocketMQ 版消费消息,实现生产与消费的异步解耦,提升系统整体吞吐能力与响应速度。 + 消息有序与可靠投递 :针对换电流程中的关键指令(如“换电抬杆”、“开始换电”、“电池锁定”),可通过云消息队列 RocketMQ 版的顺序消息能力保障执行顺序;结合事务消息机制,确保支付结算等关键操作的最终一致性。 业务价值:海量接入、实时响应、弹性处理、安全可信 面对换电生态高速发展的通信挑战,易易互联通过采用阿里云 MQTT + RocketMQ 的融合解决方案,成功构建了“海量接入、实时响应、弹性处理、安全可信”的物联网通信底座。该架构不仅显著提升了系统稳定性与可扩展性,更保障了高并发场景下的业务连续性,为实现“让换电成为营运补能第一选择”的战略目标提供了坚实的技术支撑。 核心业务价值如下: + 实现实时数据处理 :阿里云 MQTT 通过轻量级发布/订阅模式,实现终端设备与云端的毫秒级通信,确保换电状态、车辆行为、电池健康等数据的实时采集与响应,支撑全流程可视化与自动化控制。 + 实现高度可扩展性 :支持横向弹性扩展,轻松应对从 470 座到 2000 座换电站的设备接入需求,无需重构通信架构,支撑业务持续扩张。 + 保障系统可靠性与稳定性 :MQTT 支持多级 QoS 服务质量,结合 RocketMQ 的持久化与重试机制,确保关键消息不丢失、不重复,保障计费准确、指令可靠、资产安全。 + 提升整体性能与吞吐能力 :RocketMQ 的集群消费模式提供原生负载均衡机制,支持多消费者并行处理,显著提升后端系统的消息处理效率,确保高并发场景下的高效稳定运行。 展望未来,随着易易互联向“2027 年在全国建设并运营 2000 座换电站”的目标稳步迈进,这套基于阿里云构建的物联网消息中枢将持续发挥其核心引擎作用。它不仅为当前的业务运营提供了坚实保障,更为未来的智能化升级奠定了核心基础。易易互联与阿里云的成功合作,不仅是技术与业务的深度融合,也为整个新能源换电行业树立了数字化转型的标杆。通过持续的技术创新与架构演进,易易互联正加速推动其“让换电成为营运补能第一选择”的愿景成为现实,引领绿色出行新时代。
#行业实践

2025年7月8日

朗新科技集团如何用Apache RocketMQ“快、准、狠”破解业务难题?
朗新科技集团:让数字化的世界更美好 朗新科技集团股份有限公司是领先的能源科技企业,长期深耕电力能源领域,通过新一代数字化、人工智能、物联网、电力电子技术等新质生产力,服务城市、产业、生活中的能源场景,推动社会绿色发展。 朗新科技集团初创于 1996 年,总部位于江苏无锡,在国内外设有多个研发中心和分支机构,长期为超过 1.2 万多家政企客户和 4.7 亿多大众生活用户提供技术与运营服务,在电力营销数字化、新能源汽车聚合充电、分布式光伏云以及家庭能源缴费等领域处于全国领先地位。 朗新科技集团持续在相关领域探索创新,推动能源绿色低碳转型,惠及千家万户。作为国家鼓励的重点软件企业,朗新荣获了多项行业权威认证和奖项,连续四年荣登中国新经济企业 500 强榜单,并在多个能源科技细分领域保持领先地位,促进整个行业的繁荣发展。 业务扩张背景下,消息队列面临诸多挑战 朗新科技集团的核心业务之一聚焦于聚合充电场景,专注面向企业(ToB)和政府(ToG)提供充电桩业务。在充电桩系统中,关键事件包括“充电开始”、“充电结束”、“故障告警”等。通过分布式消息队列 RocketMQ 可以实现这些事件消息的异步处理,以增强系统的灵活性和可扩展性。此外,RocketMQ 还承担着传递计费请求、支付状态等消息的重要职责,对于确保整个支付流程顺畅进行至关重要。 然而,随着新能源汽车产业的迅猛发展,新能源汽车保有量激增,充电桩规模以及充电服务需求呈现指数级增长趋势。在此背景下,朗新科技集团积极实施战略扩张,但原先基于阿里云 ECS 自建并维护的开源 RocketMQ 却逐渐暴露出诸多问题,包括运维成本高、系统稳定性不足以及难以应对大规模的数据吞吐量等,这些问题对用户体验造成了显著影响。核心业务痛点如下: 1. 稳定性问题:出现消息丢失现象。ToB 和 ToG 业务对于服务的可用性和数据的可靠性要求极高,消息数据丢失是不可接受的。因为一条充电桩状态消息的丢失,就可能导致用户跑空电却无法充电的问题,对用户体验造成很大影响。 2. 系统架构缺少容灾:充电桩业务对跨可用区、跨地域容灾有迫切需求,随着业务规模增长,以及产业中心的分布式转移规划,明确需要建设跨地域容灾系统。然而,技术团队在多可用区容灾方面的技术储备与经验不够丰富。 3. 运维成本过高:每天业务消息量的波峰波谷明显且差值较大,波谷期资源利用率偏低,容易导致资源浪费,造成成本冗余。此外,临时扩容周期长且需大量人力投入。 共建云消息队列 RocketMQ 版:优势显著,业务难题迎刃而解 稳定可靠&弹性降本 针对业务痛点 1 和 3,朗新决定与阿里云共建云消息队列 RocketMQ 版 5.0 Serverless系列。其作为 RocketMQ 的商业版本,在确保消息收、发的可靠性以及实现数据多副本存储方面,都有卓越的表现。Serverless 系列能够有效应对流量波峰波谷显著的问题,不仅有助于降低资源成本,还减少了实例弹性伸缩和运维的人力投入。带来的核心优势如下: + 提高服务可用性:自建开源 RocketMQ 的 SLA 保障不充分,一旦出现故障,需要运维人员自行处理和恢复等。而云消息队列 RocketMQ 版原生支持多可用区部署,服务可用性最高可达 99.99%。 + 提高数据可靠性:自建开源 RocketMQ 需要运维人员自行管理多副本 HA,运维门槛高。而云消息队列 RocketMQ 版默认支持三副本 HA,提供数据的多级存储,数据可靠性最高可达 10个9。 + 提高资源利用率,降低成本:自建开源 RocketMQ 为了确保能够处理业务峰值流量,需要按照最高需求购买实例规格,容易造成资源浪费。而云消息队列 RocketMQ 版 5.0 Serverless 系列采用动态资源调整策略,根据实时业务负载自动弹性伸缩,按量付费,无需预先估算并配置实例规格。 提高可用性和容错力 针对业务痛点 2,朗新当前自建开源 RocketMQ 采用的是单中心系统架构,当单中心异常时,将影响整个业务系统。为此,朗新计划采用云消息队列 RocketMQ 版建设双活中心,以提升系统的可用性和容错能力。云消息队列 RocketMQ 版提供全球消息备份的容灾能力,能够支持多中心灾备、双活系统架构的系统建设。带来的核心优势如下: + 提高数据可靠性:通过在两地数据中心的消息中间件之间实现全量数据同步备份,提高数据可靠性。 + 增强服务连续性:借助消息服务的两地容灾机制,保证服务高可用性,业务可快速恢复,延续性强。 + 降低开发成本:简化配置和管理,轻松实现两地数据的相互备份,提高效率并节省业务的开发成本。 为何选择云消息队列 RocketMQ 版? 朗新之所以和阿里云共建云消息队列 RocketMQ 版,主要归于以下几个关键因素: + 高可靠性和高可用性:RocketMQ 诞生于阿里巴巴集团,历经多年“双十一”万亿级数据洪峰验证。作为国内领先的云服务提供商之一,阿里云运营着国内规模最大的 RocketMQ 集群,支撑了云上数十万客户的生产应用实践。云消息队列 RocketMQ 版提供 SLA,保障服务的高可用性和数据的高可靠性,为企业核心业务链路保驾护航。 + 支持灾备与双活架构:云消息队列 RocketMQ 版通过成熟的产品化能力和解决方案,助力企业快速构建灾备、双活系统架构。面对数据中心或地域级别的故障时,能够实现业务的快速切换与恢复,从而有效避免业务上的巨大损失,显著增强系统的整体稳定性。 + Serverless 弹性降本:云消息队列 RocketMQ 版 5.0 Serverless 系列采用存储计算分离架构,具备自适应弹性能力,能够高效处理突发流量,并且无需运维,按实际使用量计费。朗新在切换到云消息队列 RocketMQ 版 Serverless 实例后,使用成本相较自建降低了 30%。 展望未来,朗新科技集团将进一步深化与阿里云消息队列团队的合作,依托自身丰富的能源领域技术实践,以及阿里云强大的基础设施、产品能力,携手推进行业数字化进程,促进能源科技行业的发展。
#行业实践

2025年7月8日

C5GAME 游戏饰品交易平台借助 Apache RocketMQ Serverless 保障千万级玩家流畅体验
C5GAME:安全便捷,国内领先的游戏饰品交易平台 C5GAME 游戏饰品交易平台( www.c5game.com )是国内领先的 STEAM 游戏饰品交易的服务平台,专注于 CS:GO 以及 DOTA2 等热门游戏装备 C2C 中介交易。自网站上线以来,C5GAME 凭借其安全便捷的交易和流畅友好的体验,迅速在玩家群体中积攒了良好的口碑,积累了千万级注册用户,实现了累计交易额超过 100 亿元,确立了其在国内游戏饰品交易领域的领先地位。目前 C5GAME 正积极拓展国际市场,致力于打造一个全球化的 STEAM 游戏饰品交易平台,海外用户规模正在迅速扩大。 C5GAME 网站基于 STEAM 官方提供的 API,研发了先进的机器人交易系统,确保玩家在进行游戏饰品买卖与存取时的安全性和便捷性。同时,C5GAME 持续优化用户体验,满足用户日益增长的交易需求,在保障安全的基础上,致力于提供更加智能化、人性化的服务体验。例如,根据用户的实际反馈,C5GAME 自主研发了一套智能检索系统,使平台更加本土化,允许玩家通过简称快速准确地查找所需饰品,极大提升了搜索效率和用户体验。 千万级注册玩家、百亿交易额背后面临的业务挑战 在互联网时代高速发展的浪潮中,游戏行业蓬勃发展,各类游戏如雨后春笋般涌现,并推动了游戏饰品交易行业的爆发式增长。在此背景下,C5GAME 游戏饰品交易平台上的玩家数量和交易量显著增加,同时也带来了一系列挑战: 1. 系统耦合复杂:由于交易系统与多个核心子系统紧密相连,高度耦合的复杂架构增加了系统故障的风险。 2. 活动期稳定性挑战:由于平台频繁推出促销活动,且不定期推出平台用户的补贴活动,这些活动时段会吸引大量用户,导致流量激增,对系统稳定性带来严峻考验。 3. 技术选型难题:选择自建开源中间件可能因资源投入不足而无法满足业务需求,甚至可能带来技术风险。 4. 运维效率提升需求:对于交易核心链路,任何订单异常都需要及时排查处理。因此,构建一个强大且全面的工具体系来支持高效运维尤为重要。 5. 成本控制压力:每天业务消息量的波峰波谷相差较大,为应对高峰期的高并发请求而购买高规格实例,会导致成本过高,在非高峰期时段资源利用率较低,造成大量的资源浪费。 面对上述问题,C5GAME 需要采取有效措施优化系统架构、增强服务稳定性、选择合适的技术方案、加强运维能力以及合理规划资源等,保障业务高效、稳定的同时有效控制成本。 云消息队列 RocketMQ 版:异步解耦、可靠高效、弹性降本 异步通信模型 通过云消息队列 RocketMQ 版的异步消息通信模式,各子系统之间无需建立强耦合的直接连接,调用方只需将请求转换为消息发送至 RocketMQ,一旦消息发送成功,即可视为该异步链路调用完成,剩下的工作 RocketMQ 会负责将事件可靠通知到下游的调用系统,确保任务执行完成。 以下是异步通信模式的主要优势: + 简化系统架构:调用方和被调用方通过 RocketMQ 通信,系统是星型拓扑结构,易于维护和管理。 + 上下游弱耦合:上下游系统之间弱耦合,由 RocketMQ 负责消息缓冲和异步恢复。上下游系统能够独立进行升级和变更,不会互相影响。 + 流量削峰填谷:RocketMQ 具备强大的流量缓冲和整形能力,能够在业务流量高峰期间保护下游系统不被击垮。 异步消息通信模式降低了系统间的依赖度和架构的复杂度,同时提升了整体的稳定性、可靠性和可扩展性。 基于定时消息的事件驱动 在游戏饰品交易中,订单流转过程中经常会存在多个超时状态的任务。这些任务需要得到可靠和及时的处理,强烈依赖于底层系统的分布式调度机制。尤其是在月底的大型促销活动中,大量的预售订单需要定时支付尾款等场景,会产生大量的定时任务。 基于云消息队列 RocketMQ 版的定时消息功能,以其事件驱动的方式,确保了在大促高峰期,处理海量堆积任务时的高性能、高可靠。 RocketMQ 5.0 Serverless 对于自建开源 RocketMQ 集群,为保证业务稳定性,往往需要按照业务请求的峰值去配置集群资源,包括 CPU、内存、存储、网络等。在实际生产中,由于业务消息量的波峰波谷明显,集群资源有大部分时间处于低利用率状态,造成闲置浪费。 云消息队列 RocketMQ 版 5.0 系列 Serverless 实例可以很好地解决这个问题,它能够通过资源快速伸缩实现资源使用量与实际业务负载贴近,并支持按照实际使用量计费,有效降低企业的运维压力和使用成本。 C5GAME 借助 RocketMQ Serverless保障千万级玩家流畅体验 C5GAME 通过采用云消息队列 RocketMQ 版 Serverless 系列,有效解决了现有架构中存在的性能瓶颈,极大增强了交易系统的灵活性和稳定性,有效实现了流量的削峰填谷,显著提升了整体运维效率,确保了千万级玩家能够享受到流畅的游戏交易体验。同时,还帮助 C5GAME 节省了资源和运维成本,使开发团队能够更专注于业务创新,为广大游戏玩家提供更丰富的功能和更友好的体验。 1. 订单系统异步化:通过云消息队列 RocketMQ 版实现订单系统异步化,有效实现流量削峰填谷,增强了系统在活动期间的稳定性。 2. 超时订单处理:使用云消息队列 RocketMQ 版的定时消息功能,应对订单支付超时等复杂场景的处理,简化业务逻辑的复杂度。 3. 运维体系构建:基于云消息队列 RocketMQ 版丰富的 Metrics、Trace 等可观测工具,构建了一整套运维体系,极大提升了日常问题排查和巡检的效率。 4. 资源弹性降本:云消息队列 RocketMQ 版 5.0 serverless 系列提供动态资源调整策略,根据实时业务负载自动弹性伸缩,按量付费,无需预先估算并配置实例规格。C5GAME 在切换到云消息队列 RocketMQ 版 5.0 Serverless 实例后,使用成本相较自建降低了 60%。 展望未来,随着 C5GAME 不断推出创新功能和营销活动,云消息队列 RocketMQ 版将继续助力 C5GAME 为广大游戏玩家提供更流畅、更优质的服务体验。
#行业实践

2025年6月18日

乐刻运动:基于 Apache RocketMQ + MQTT 实现健身产业数字化升级
乐刻运动:助推数字经济与健身产业深度融合发展 乐刻运动,2015 年创立于杭州的健身产业互联网平台,以让每个人平等享有运动健康的资源和权利为使命,以每天响应 1 亿人次的运动健康需求为愿景。乐刻以用户运营为核心,构建数智中台,打通场景、用户、教练、服务,对健身产业进行数字化升级改造,提高运营效率和供应链管理能力,搭建健身服务新零售生态,助推数字经济与健身产业深度融合发展。截至 2024 年 12月,乐刻运动已在全国 30 多个城市开设超过 1700 家门店。 乐刻运动在数字化升级中的挑战 在数字化升级过程中,乐刻运动计划在各门店部署物联网设备,覆盖用户进门、签到以及运动器材等场景,以便实时、持续地收集相关信息并对其进行维护管理,从而进一步提升门店运营效率和服务质量。然而,随着业务规模的持续扩大,终端设备数量也在不断增加,带来了以下挑战: 1. 高并发连接与实时监控:鉴于健身房门店众多,且设备种类和数量繁多,需要一个能够支持大规模并发连接的可靠通信架构,确保所有终端设备的状态被及时监测,并迅速响应任何异常情况。 2. 轻量低带宽的消息传输:由于网络资源的限制,在客户端设备与服务端之间的连接上,需要采用一种轻量级、低带宽的消息传输协议,以优化数据传输效率并减少对现有网络基础设施的压力。 3. 高效的消息处理机制:在业务高峰期时,客户端上报数据量大且频率高,需要一套高效的消息处理机制,来避免因服务器应用有限,无法及时消费,而造成消息堆积的问题。 结合 RocketMQ 与 MQTT 的高效解决方案 为应对上述挑战,乐刻运动采用 RocketMQ 与 MQTT 协议相结合的解决方案,显著提升了整体架构的稳定性和可扩展性,提高了消息处理效率,确保了高并发场景下的业务连续性,最终优化了用户体验。 1. MQTT 海量终端数据实时收集:通过 MQTT 协议,系统能够实时收集健身房内各类物联网设备上报的数据,满足高并发需求,确保数据传输的高效与可靠。 2. RocketMQ 消息缓存与负载均衡:将 MQTT 的消息流出挂载到 RocketMQ,通过 RocketMQ 对客户端采集到的大量消息进行消息缓存和负载均衡,从而有效缓解服务端的压力,确保系统的稳定运行。 云消息队列助力乐刻运动数字化升级 在实施上述方案的过程中,乐刻运动选择了阿里云的云消息队列 RocketMQ 版和云消息队列 MQTT 版作为核心消息中间件,这两个产品在实际生产环境中展现出显著的优势和价值。 1. 产品简介 + 云消息队列 RocketMQ 版:云消息队列 RocketMQ 版是阿里云基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式“消息、事件、流”统一处理平台。 + 云消息队列 MQTT 版:云消息队列 MQTT 版是专为移动互联网(MI)、物联网(IoT)领域设计的消息产品,覆盖直播互动、金融支付、智能餐饮、即时聊天、移动 Apps、智能设备、车联网等多种应用场景;通过对 MQTT、WebSocket 等协议的全面支持,连接端云之间的双向通信,实现 C2C、C2B、B2C 等业务场景之间的消息通信,可支撑千万级设备与消息并发。 2. 实际生产环境中的优势和价值 + 实时数据处理:云消息队列 MQTT 版通过 MQTT 协议实现终端设备与服务器之间的实时通信,利用发布/订阅模式,确保设备状态和用户行为的及时监控和响应,从而实现高效的实时数据处理能力。 + 高度可扩展性:云消息队列 MQTT 版具备强大的横向扩展能力,能够轻松支持海量终端设备和传感器的接入,能够轻松应对健身房规模不断扩大带来的设备接入需求。 + 可靠性和稳定性:云消息队列 MQTT 版的 MQTT 协议支持多种服务质量(QoS)级别,可以根据业务需求选择合适的级别,确保消息可靠传递,防止数据丢失。 + 性能表现卓越:服务端应用之间隐含着对等和任务分摊的关系,云消息队列 RocketMQ 版的集群消费模式提供原生的负载均衡机制,能够提升系统的整体性能,确保高并发场景下的高效稳定运行。 乐刻运动通过采用阿里云的云消息队列 RocketMQ 版和云消息队列 MQTT 版,不仅提升了系统的实时数据处理能力,还增强了系统的可扩展性、可靠性和性能,为业务的持续发展和流畅的用户体验,提供了坚实的技术支持,进一步推动了数字经济与健身产业的深度融合。
#行业实践