News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

谷歌首次公布Space AI计划:是否会打造“AI版星链

前天,我写了一篇文章介绍微软CEO的最新采访。由于数据中心电力不足,微软购买的旧GPU无法插入。这不再是一家公司的问题,而是未来的全球问题。这也导致了当前AI投资逻辑的重大变化。如果你有兴趣,可以看我的文章:结论是能源已经成为一个主要问题。于是,谷歌今天发布了一项前瞻性研究计划——Project Suncatcher,旨在探索构建基于太空、高度可扩展的人工智能计算集群。你可以将其理解为“AI版星链”。这时,谷歌将目光投向了整个太阳系。在人工智能领域,计算能力和能源需求的爆炸性增长将使地球资源面临巨大压力,而太阳能作为太阳系中最丰富、最强大的能源,可以在太空中得到更有效的利用。简单来说,这个想法f ​​Project Suncatcher是通过发射一组由太阳能驱动、配备谷歌TPU并通过自由空间光通信连接的卫星群,在近地轨道建立一个“空间数据中心”。初步研究表明,尽管存在巨大的工程挑战,但该想法距离基础物理和经济可行性的观点并不遥远。马斯克给皮查伊留言,称这个想法很棒。皮查伊表示,这完全归功于 SpaceX 在发射技术方面的巨大进步。显然肌肉需要坐下来数钱。谷歌今天发表了一篇预印本论文《Design of oneg High Scalable Space-Based Artificial Intelligence Infrastructure System for the Future》,揭示了该研究论文的一些早期结果:https://services.google.com/fh/files/misc/suncatcher_paper.pdf 以下是对该论文的详细解读。为什么人工智能计算要在太空进行? LLM的快速发展面临着前所未有的挑战d 挑战:对计算能力和能源的巨大需求。尽管算法效率会不断提高,例如Google Gemini的单次查询能耗一年下降了33次,但AI产品和服务增长速度更快,导致全球数据中心的能源需求急剧增加。为了满足这种增长,有必要找到更具可扩展性和可持续性的能源解决方案。 Project Suncatcher 的出发点就是基于泛探索这个问题,并阐述了我们太阳系中最惊人的能源来源:太阳的巨大潜力:太阳每秒发出高达 3.86 × 10²⁶ 瓦的能量,这是人类发电总量的 100 万亿倍以上。太空的独特优势:与地球表面相比,在太空利用太阳能具有显着的优势。在某些轨道上,太阳能电池板几乎每天 24 小时接收光线,不受昼夜周期和天气影响。这使得 e发电效率比地球上中纬度太阳能电池板高出八倍,同时大大减少对重型储能电池的依赖。太阳能空间的传统想法通常集中在如何将产生的电力发送回地球,但它面临着巨大的技术挑战。 Project Suncatcher提出了一个新想法:与其将能量送回地球,不如直接在太空部署数据中心(即计算任务)。该空间数据中心由大量通过自由空间光链路高速互连的太阳能卫星组成。这种方法不仅保证了前所未有的计算规模,而且最大限度地减少了对土地和地下水等宝贵资源的影响。该项目是谷歌继自动驾驶汽车(Waymo)和超级计算机之后再次挑战科学和工程极限的“Moonshot”。 Suncatcher 系统设计:在轨道上构建人工智能集群。为了实现这一愿景,Project Sun捕手提出了一种由模块化、小型化卫星组成的星座系统设计。这种设计放弃了建造单一的大型“整体式”空间数据中心的想法,因为后者需要复杂的在轨组装,并且在避开障碍物和结构方面面临更大的困难。模块化设计为增量扩展和迭代提供了极大的灵活性。关键的系统设计要素包括: 轨道选择:卫星星座计划部署在黎明-黄昏太阳同步低地球轨道(LEO)上。该轨道的特点是卫星始终飞行在地球暮线上方,这意味着它们几乎总是受到太阳的照射。这不仅提高了太阳能收集的效率,还减少了对电池的需求,从而降低了质量和卫星发射成本。同时,近地轨道还可以有效减少与地面站的通信延迟。埃克h卫星将搭载谷歌的TPU加速器芯片。具体来说,初始测试使用了 Trillium,即 Google 的 V6E Cloud TPU。这些芯片将负责实现大规模机器学习(ML)工作负载的高速互连:让分散在许多卫星之间的TPU协同工作,比如在地面数据中心,必须建立超高带宽、超低延迟的连接。这是通过自由空间光通信 (FSO) 技术实现的。为了达到所需的通信性能,卫星以非常近的距离(数百米到公里)编队飞行:保持如此紧密的卫星编队是一个巨大的挑战。该系统采用基于机器学习的控制模型来精确控制每颗卫星的轨道,确保它们在保持近距离的同时避免碰撞。热管理:在真空中,高强度TPU芯片产生的热量无法通过对流方式散发出去。必须通过热管和散热器以热辐射的形式释放到太空中。高效的热管理系统对于确保芯片在标称温度下稳定运行至关重要。这一系列设计旨在最大限度地提高每公斤发射质量提供的计算能力,使其更加经济。本研究计划的首要任务是一一攻克该系统实施中面临的四大技术挑战。挑战一:实现数据中心级星间光通信大规模机器学习任务,尤其是模型训练,需要计算集群中不同加速器之间海量数据的快速交换。 Google 的 TPU 超级计算机通过定制的、每秒数千兆位的光学芯片到芯片互连来满足这一需求。但目前商用的星间光链路的数据速率通常在1~100G之间,远远不能满足的要求。 Project Suncatcher的目标是实现每秒数十TB的卫星间链路带宽,这是一个数量级飞跃的解决方案:短距离+多通道谷歌研究团队发现,它可以类似于地面数据中心成熟的商业SiDense波分复用(DWDM)收发器技术。但这项技术有一个重大瓶颈:它需要非常高的接收光功率,通常在数百微瓦量级,而传统星间通信的接收功率只有1微瓦左右。物理原理提供了解决方案:在自由空间中,接收到的光功率与通信距离的平方成反比(p∝1/d²)。这意味着只有大幅缩短卫星之间的距离,才能显着提高接收功率,以满足DWDM收发器的工作条件,称为“闭链路芽”这一挑战可以通过卫星编队距离缩短到几公里甚至更近来克服:空间复用当通信距离变得很短时(例如,10厘米望远镜在10公里以内),光束发散角很小,面积也变小。这为空间复用带来了新的机会,使得研究团队可以在单个总孔径内组合多个独立的光收发系统阵列。例如,总孔径为10厘米,可以集成5 厘米光学器件的 2x2 阵列(距离为 2.5 公里),或 2.5 厘米光学器件的 4x4 阵列(距离为 0.63 公里)。每个子系统都承载独立的 DWDM 数据流,从而使总带宽加倍。为了证明这一概念,谷歌团队构建了一个实验室规模的演示系统。干。该系统使用商用现成组件,在短路径的自由空间内成功实现了单向 800g 和双向总计 1.6 TB,有力地展示了这一技术路线的潜力。挑战2:利用大规模、近距离卫星编队的轨道动力学为了实现超高带宽的星间通信,捕日者卫星星座需要以前所未有的紧密编队飞行。谷歌研究团队通过数值和分析物理模型对该星座的轨道动力学进行了深入分析。建模与仿真团队以81颗卫星组成的平面星座为例进行分析。该星座的平均轨道高度为650公里,整个星团的半径R为1公里。在这种配置中,相邻卫星之间的距离在 100 到 200 米之间周期性振荡。建模的起点是经典的 Hill-Clohessy-Wiltshire (HCW) 方程,它描述了完美开普勒轨道上一颗卫星相对于另一颗卫星的相对运动。随后,团队使用基于JAX(异构编程框架)的模型进行数值优化,可以解释更复杂的扰动因素。在轨道高度650公里处,影响卫星轨道最重要的非开普勒效应是地球引力场的非球形性(特别是地球惯性引起的J2摄动项)和大气层的潜在阻力。 “自由落体”星座的动态演化模拟结果表明,这个星座并不是一个刚性结构,而是一簇在重力影响下不断变化的“自由落体物体”。在没有推力干预的情况下,整个星座的形状在一个轨道周期内完成了两个完整的变形周期,其变形周期为:主线总是被旋转的椭球体包围。值得注意的是,这种动态演变在很大程度上是稳定且可预测的。即使在考虑了地面保真度(J2 项)的影响之后,也可以通过对星座初始形状进行小幅调整来补偿这种可预测的漂移。例如,将椭球体的轴长比微调至 2:1.0037,可将 J2 项引起的通量降低至每年每公里 3 m/s 的水平 结论:维持这种低成本轨道表明,维持如此紧密的编队可能只需要适度的轨道维持机动,即燃料消耗。这意味着控制如此庞大而密集的星座在技术上是可行的,且运营成本可控。挑战三:商业TPU在太空辐射环境中的安全性。对于为地面数据中心设计的尖端商用芯片直接在太空中使用,最大的问题是它们是否可以在太空中使用。耐受太空辐射环境。 Project Suncatcher 的 Suncatcher 团队为 Google V6E Cloud TPU 进行了首次公共辐射测试环境:该团队使用 67MEV(兆电子伏特)质子束来模拟太阳同步近地轨道的辐射环境。在这个轨道上,主要辐射源是穿透质子和银河宇宙射线。该测试模拟了 10 mM 铝当量的条件。在这种情况下,5年任务期间的总辐射剂量预计约为750拉德(SI)。辐射效应及测试结果: 1、总电离剂量(TID):这是辐射粒子在芯片绝缘层中累积电荷所造成的长期损伤效应。测试发现TPU中最敏感的组件是HBM子系统。当累积剂量达到 2 Krad (SI) 时,HBM 开始出现异常,这大约是五年任务预期剂量的 3 倍。测试时剂量高达 15 Krad (SI),芯片不会出现由 TID 引起的永久性硬故障。结论是,Trillium TPU 对于太空应用具有“惊人的抗辐射性”。 2. 单事件效应:这是单个高能粒子撞击芯片,瞬间导致逻辑错误或数据翻转。 HBM也是SEE中最敏感的部分,主要表现为未纠正的ECC(纠错码)错误(UECC)。对于典型的传感任务,观察到的 HBM UECC 发生率约为每 50 rad 一次。换算下来,出错的概率很低,大约每1000万条信息就会出现一次。对于推理应用来说,这个错误率是完全可以接受的。然而,检测对模型训练任务的影响以及系统级对策的有效性还需要进一步研究。测试还发现,主机系统的 CPU 和 RAM 分别每 450 rad (SI) 和 400 rad (SI) 就会发生一次由视觉引起的系统崩溃。阳性测试 r结果证明了使用商业现成 (COTS) 进行机器学习的有效性。加速器可以建在太空中,这为项目的经济性奠定了重要基础。挑战四:太空人工智能的经济可行性和发射成本分析。从历史上看,高昂的发射成本一直是所有重大太空项目的最大障碍。 Suncatcher的生存能力更多地取决于未来的发射成本能否大幅降低。主要目标成本:研究团队将太空数据中心的“发射电价”(即发射到轨道并经过一年转换的每单位容量的成本(KW)($/kW/y))与地面数据中心的平均年电力成本进行了比较。目前,美国地面数据中心的年电力成本约为 570 美元/千瓦/年至 3,000 美元/千瓦/年。发射成本呈下降趋势:对 SpaceX 历史发射价格和从猎鹰 1 号到猎鹰重型火箭的有效载荷数据的分析显示,每发射成本下降约 20%学习率(即累积发射质量)的提升,每公斤的发射价格下降约20%。如果保持这一学习率(每年大约需要 180 次恒星级发射),那么在 2030 年代中期将有效载荷放入近地轨道的成本是另一个基于星际飞船公开规格的分析,并且重复使用目标更为乐观,预测成本可能低于每公斤 60 美元(重复使用 10 次),甚至低于每公斤 60 美元(重复使用 10 次),甚至低于 15 美元(重复使用 100 次)。成本对比结论:以星链V2迷你卫星为例,如果发射成本下降到200美元/公斤,“传输电价”将在810美元/kW/Y左右,已经进入地面数据电费范围,这表明从经济角度来看,空间数据中心的成本(主要代表发射成本)可以与它们进行地面比较。即使发射成本下降速度快于预期,例如下降至 300 美元/公斤,correspo发现发射电价接近 1,200 美元/千瓦/年,仍在可比范围内。因此,尽管Warmmit运载火箭技术和规模不断扩大,发射成本将不再是难以逾越的障碍。 Suncatcher的初步评估结果表明该项目的未来方向和下一步行动还不错,证明空间人工智能计算的基本概念并没有因为基础物理或不可估量的经济约束而被忽视。然而,要使这一愿景成为现实,仍然存在大量工程挑战需要解决,例如高效的热真空管理、高带宽星地通信以及在轨系统的长期可靠性和维护。为了应对这些挑战,该团队制定了明确的下一步计划: 研究和验证任务:该团队与 Planet 合作,计划在 2027 年初发射两颗原型卫星。这次在轨实验将成为测试和验证方面的一个重要里程碑。在现实空间环境中验证轨道动力学模型。查看 TPU 硬件在太空中的实际表现。证明利用星间光链路执行分布式机器学习任务的可行性。未来一体化设计:未来,当星座规模达到吉瓦级时,可能需要更多的卫星设计理念。该团队借鉴了智能手机行业从分立元件到高度集成的片上系统的发展路径,并设想未来的计算卫星也可能采用高度集成的设计,将太阳能收集、计算单元和热管理系统紧密集成,以优化质量和效率。 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(含图片及视频)eos(如果有)由网易好用户上传并发布,网易好是一个社交媒体平台,仅提供信息性离子存储服务。
Tel
Mail
Map
Share
Contact