首页 | Linux 基础 | 资讯动态 | Linux 应用 | Linux 服务器 | Linux 开发 | Linux 安全 | 专题 | 联盟论坛
  当前位置:主页>Linux 服务器>文章内容
剖析Linux系统下基于NUMA构建的服务器
来源:http://www.unix5.com 作者:riechelr_hl 发布时间:2007-06-26  

NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛,许多厂商都成功推出了基于 NUMA 架构的服务器,本文重点讨论了当前 Linux 的 NUMA 技术,主要包括:存储管理、NUMA 调度和用户层的 API,并在 SGI 的 Altix 350 系统上进行了 NUMA 基本测试,对进行 Linux NUMA 技术的研究具有参考价值。

一、引言

随着科学计算、事务处理对计算机性能要求的不断提高,SMP(对称多处理器)系统的应用越来越广泛,规模也越来越大,但由于传统的 SMP 系统中,所有处理器都共享系统总线,因此当处理器的数目增大时,系统总线的竞争冲突加大,系统总线把成为瓶颈,所以目前 SMP 系统的 CPU 数目一般只有数十个,可扩展能力受到极大限制。NUMA 技术有效结合了 SMP 系统易编程性和 MPP(大规模并行)系统易扩展性的特点,较好解决了 SMP 系统的可扩展性问题,已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于 NUMA 架构的高性能服务器,如 HP 的 Superdome、SGI 的 Altix 3000、IBM 的 x440、NEC 的 TX7、AMD 的Opteron 等。随着 Linux 在服务器平台上的表现越来越成熟,Linux 内核对 NUMA 架构的支持也越来越完善,特别是从 2.5 开始,Linux 在调度器、存储管理、用户级 API 等方面进行了大量的 NUMA 优化工作,目前这部分工作还在不断地改进,如新近推出的 2.6.7-RC1 内核中增加了 NUMA 调度器。本文主要从存储管理、调度器和 CpuMemSets 三个方面展开讨论。

二、NUMA 存储管理

NUMA 系统是由多个结点通过高速互连网络连接而成的,如图 1 是 SGI Altix 3000 ccNUMA 系统中的两个结点。

 

 

图 1 SGI Altix3000 系统的两个结点

NUMA 系统的结点通常是由一组 CPU(如,SGI Altix 3000 是 2 个Itanium2 CPU)和本地内存组成,有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存,因此全系统的内存在物理上是分布的,每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的,为了减少非一致性访存对系统的影响,在硬件设计时应尽量降低远地内存访存延迟(如通过 Cache 一致性设计等),而操作系统也必须能感知硬件的拓扑结构,优化系统的访存。

目前 IA64 Linux 所支持的 NUMA 架构服务器的物理拓扑描述是通过 ACPI(Advanced Configuration and Power Interface)实现的。ACPI 是由 Compaq、Intel、Microsoft、Phoenix 和 Toshiba 联合制定的 BIOS 规范,它定义了一个非常广泛的配置和电源管理,目前该规范的版本已发展到 2.0,3.0 版本正在制定中,具体信息可以从 http://www.acpi.info 网站上获得。ACPI 规范也已广泛应用于 IA-32 架构的至强服务器系统中。

Linux 对 NUMA 系统的物理内存分布信息是从系统 firmware 的 ACPI 表中获得的,最重要的是 SRAT(System Resource Affinity Table)和 SLIT(System Locality Information Table)表,其中 SRAT 包含两个结构:

Processor Local APIC/SAPIC Affinity Structure:记录某个 CPU 的信息;

Memory Affinity Structure:记录内存的信息;

SLIT 表则记录了各个结点之间的距离,在系统中由数组 node_distance[ ] 记录。Linux 采用 Node、Zone 和页三级结构来描述物理内存的,如图 2 所示,

 

 

图 2 Linux 中 Node、Zone 和页的关系

2.1 结点

Linux 用一个 struct pg_data_t 结构来描述系统的内存,系统中每个结点都挂接在一个 pgdat_list 列表中,对 UMA 体系结构,则只有一个静态的 pg_data_t 结构 contig_page_data。对 NUMA 系统来说则非常容易扩充,NUMA 系统中一个结点可以对应 Linux 存储描述中的一个结点,具体描述见 linux/mmzone.h。

 

typedef struct pglist_data {

  zone_t node_zones[MAX_NR_ZONES];

  zonelist_t node_zonelists[GFP_ZONEMASK+1];

  int nr_zones;

  struct page *node_mem_map;

  unsigned long *valid_addr_bitmap;

  struct bootmem_data *bdata;

  unsigned long node_start_paddr;

  unsigned long node_start_mapnr;

  unsigned long node_size;

  int node_id;

  struct pglist_data *node_next;

  } pg_data_t;

下面就该结构中的主要域进行说明:

域说明

Node_zones 该结点的 zone 类型,一般包括 ZONE_HIGHMEM、ZONE_NORMAL 和 ZONE_DMA 三类Node_zonelists 分配时内存时 zone 的排序。它是由 free_area_init_core() 通过 page_alloc.c 中的 build_zonelists() 设置 zone 的顺序nr_zones 该结点的 zone 个数,可以从 1 到 3,但并不是所有的结点都需要有 3 个 zonenode_mem_map 它是 struct page 数组的第一页,该数组表示结点中的每个物理页框。根据该结点在系统中的顺序,它可在全局 mem_map 数组中的某个位Valid_addr_bitmap 用于描述结点内存空洞的位图,node_start_paddr 该结点的起始物理地址。node_start_mapnr 给出在全局 mem_map 中的页偏移,在free_area_init_core() 计算在 mem_map 和 lmem_map 之间的该结点的页框数目,node_size 该 zone 内的页框总数,node_id 该结点的 ID,全系统结点 ID 从 0 开始。系统中所有结点都维护在 pgdat_list 列表中,在 init_bootmem_core 函数中完成该列表初始化工作。

共2页: 上一页 1 [2] 下一页
 
如果您对本文有任何疑问或者建议,请到论坛讨论区发表您的意见: >> 论坛入口
[收藏] [推荐] [评论(0条)] [返回顶部] [打印本页] [关闭窗口]  
  热点文章
·Linux系统下Apache服务器设置与
·在Linux x86上安装Oracle数据库1
·Linux操作系统下IPTables配置方
·Linux系统下SVN服务器的搭建过程
·Linux架设代理服务器(1)
·Linux系统下的Oracle数据库编程
·Linux 服务器集群系统
·Linux下免费数据库PostgreSQL开
·高端Linux操作系统服务器技术之
·在Ubuntu Linux 上架设Web服务器
· 在 Linux 上构建 Web spider
·Debian Linux操作系统下启动远程
  相关文章
·教你用SRP服务构建Linux下FTP服
·Linux系统下的Oracle数据库编程
·实战安全设置WEB专用服务器技巧
·Linux系统下Mini SQL数据库开发
·Linux架设代理服务器(2)
·Linux架设代理服务器(1)
·用Linux建立局域网服务器
·PostgreSQL的热备和恢复
·源码安装Postgresql8.1.3+PostGI
·Linux下免费数据库PostgreSQL开
·用LVS在Linux上搭建负载均衡的集
·在Ubuntu Linux 上架设Web服务器

本站信息源至:互联网络,均为学习,交流所用,如有版权问题,请联系我们.
站长QQ:397422079 E_mail:riechelr_hl@unix5.com
转载本站内容请注明原作者名.谢谢!