Logo Logo
Tin công nghệ 21-11-2023

Cách Chọn Máy Chủ Phù Hợp cho AI? Phần Hai: Bộ Nhớ, Lưu Trữ và Hơn Thế Nữa

Sự phổ biến của các công cụ và dịch vụ được tăng cường bởi trí tuệ nhân tạo đã làm cho việc mua sắm "máy chủ AI" trở thành ưu tiên cho các tổ chức lớn và nhỏ. Trong Phần Hai của Hướng dẫn Công nghệ của GIGABYTE Technology về việc chọn máy chủ AI, chúng tôi xem xét sáu thành phần quan trọng khác ngoài CPU và GPU có thể biến máy chủ của bạn thành một cỗ máy siêu tính mạnh mẽ. 

 

Trong Phần Một của Hướng dẫn Công nghệ của chúng tôi, chúng tôi đã xem xét một số mẹo hữu ích sẽ giúp bạn chọn đúng bộ xử lý trung tâm (CPU) và bộ xử lý đồ họa (GPU) cho máy chủ AI của bạn. Mặc dù sức mạnh xử lý là yếu tố hàng đầu, nhưng có nhiều hơn hai thành phần này trong một nền tảng tính toán AI. Trong phần này, chúng tôi xem xét cách bộ nhớ, lưu trữ, bộ cung cấp nguồn điện (PSU), quản lý nhiệt độ, khe mở rộng và cổng I/O có thể ảnh hưởng đến hiệu suất của máy chủ của bạn, và cách bạn có thể chọn đúng chúng cho công việc với AI.

Cách Chọn Bộ Nhớ Đúng cho Máy Chủ AI của Bạn?

Còn được gọi là RAM, bộ nhớ được sử dụng trong máy chủ để lưu trữ chương trình và dữ liệu cho việc sử dụng ngay lập tức của bộ xử lý. Vì các chip AI mạnh mẽ nhất có thể tính toán rất nhiều dữ liệu một cách nhanh chóng, nên việc hạn chế hiệu suất của chúng với bộ nhớ không đủ sẽ không hợp lý. Bộ nhớ của máy chủ luôn phải có đủ thông lượng và dung lượng để hỗ trợ bộ xử lý.

Hiện tại, loại bộ nhớ tiên tiến nhất là DDR5 SDRAM, là thế hệ thứ năm của Double Data Rate Synchronous Dynamic Random-Access Memory; chúng ta sẽ gọi tắt là DDR5. Nó cung cấp tốc độ truyền dữ liệu cao hơn, băng thông rộng hơn, yêu cầu điện áp thấp hơn và dung lượng lớn hơn so với các thế hệ trước, làm cho nó trở thành thành phần bộ nhớ lựa chọn cho máy chủ AI hàng đầu.

Rõ ràng, một thanh RAM (đúng hơn được gọi là DIMM) sẽ không đủ. Hãy chắc chắn rằng máy chủ AI của bạn có đủ khe DIMM để đáp ứng yêu cầu của tải công việc của bạn. Ví dụ, GIGABYTE G493-ZB3, một máy chủ GPU dòng G được thiết kế cho đào tạo và suy luận AI, có tới 48 khe DIMM. Chính các DIMM có thể được thiết kế để tối ưu hóa tốc độ, ổn định và dung lượng. Ví dụ bao gồm một số nhóm con của DIMM, như RDIMM (DIMM đăng ký) và LRDIMM (DIMM giảm tải).

Cuối cùng, bộ xử lý máy chủ có thể có cách để tối ưu hóa việc sử dụng bộ nhớ. Máy chủ đào tạo AI mạnh mẽ của GIGABYTE, G593-SD0, hỗ trợ bộ xử lý Intel® Xeon® CPU Max Series, có tính năng High Bandwidth Memory (HBM) để cải thiện việc sử dụng bộ nhớ trong tải công việc HPC và AI. Kiến trúc XDNA™ được sử dụng bởi GPU của AMD khoe một kiến trúc luồng dữ liệu thích nghi cho phép dữ liệu chuyển qua các lớp của một mô hình AI mà không cần dựa vào bộ nhớ ngoại vi.

Cách Chọn Lưu Trữ Đúng cho Máy Chủ AI của Bạn?

Trong khi bộ nhớ lưu trữ dữ liệu để sử dụng ngay lập tức, lưu trữ giữ tất cả dữ liệu của máy chủ một cách vĩnh viễn, cho đến khi người dùng xóa nó. Ba tiêu chí để bạn xem xét là tốc độ (tức là tốc độ truyền dữ liệu và băng thông), dung lượng lưu trữ và liệu thiết bị có tương thích với "trụ cột thứ ba của trung tâm dữ liệu hiện đại" (ngoài CPU và GPU), đó là DPU.

Có rất nhiều từ viết tắt để nhớ, vì vậy hãy theo dõi chúng tôi. Trước hết, không cần phải nói rằng ổ đĩa thể rắn (SSD) đã vượt qua ổ đĩa cứng (HDD) là thiết bị lưu trữ vượt trội và chắc chắn nên được sử dụng trong máy chủ AI của bạn. Có ba loại giao diện lưu trữ: SATA, SAS và NVMe. SATA là công nghệ được thiết lập nhất và ban đầu được thiết kế để sử dụng với HDD. SAS nhanh hơn SATA, nhưng nhà vô địch là NVMe, chỉ có thể được sử dụng với SSD. Bởi vì NVMe sử dụng công nghệ PCIe để cải thiện tốc độ đọc/ghi và tăng băng thông giữa thiết bị lưu trữ và bộ xử lý, kết quả là tốc độ truyền dữ liệu nhanh hơn và độ trễ thấp hơn. Do đó, SSD sử dụng giao diện NVMe Gen5 mới nhất là lựa chọn hàng đầu cho thiết bị lưu trữ trong máy chủ AI.

Thuộc tính tiếp theo cần xem xét là dung lượng. Nói chung, một ổ cứng SSD NVMe có thể sử dụng dạng nhỏ hơn là M.2 hoặc dạng phổ biến hơn ở doanh nghiệp là ổ cứng 2.5 inch. Dòng máy chủ AI của GIGABYTE chủ yếu sử dụng ổ cắm 2.5 inch vì dung lượng lớn hơn và thiết kế có thể thay thế nóng, cho phép tháo lắp dễ dàng mà không cần tắt máy chủ. Các khe cắm M.2 cũng có sẵn trên nhiều mẫu máy chủ khác nhau.

Cuối cùng, một số máy chủ AI của GIGABYTE, như máy chủ H223-V10 H-Series High Density sử dụng chip siêu mạnh NVIDIA Grace Hopper™, có thể hỗ trợ thêm ổ cắm 2.5 inch Gen5 NVMe có thể thay thế nóng bằng cách thêm NVIDIA BlueField-3 DPUs vào các khe mở rộng. Đây là tính năng mới thú vị cần được xem xét khi bạn so sánh các lựa chọn cho kho lưu trữ của máy chủ AI của mình.

Trong khi bộ nhớ và lưu trữ phục vụ các chức năng khác nhau, có những quy tắc chung tương tự khi chọn lựa chúng cho nền tảng siêu máy tính AI của bạn.

Làm thế nào để chọn Bộ cung cấp điện phù hợp cho máy chủ AI của bạn?

Bộ cung cấp điện (PSU) của máy chủ cung cấp nguồn điện ổn định, an toàn cho máy chủ hoạt động. Do công việc AI thường yêu cầu tính toán nặng nề, việc chọn cấu hình PSU có hiệu quả năng lượng và dự phòng xuất sắc là điều cần thiết.

Cách tốt nhất để kiểm tra hiệu quả năng lượng của PSU là thông qua chương trình chứng nhận 80 PLUS. Chương trình này phân loại PSU thành sáu cấp độ khác nhau dựa trên hiệu quả năng lượng, với 80 PLUS Titanium là hiệu quả nhất. Ở cấp độ này, hiệu suất chuyển đổi (tức là bao nhiêu năng lượng đầu vào được chuyển thành đầu ra hữu ích) nằm trong khoảng từ 90% đến 96%. Cấp độ cao thứ hai là 80 PLUS Platinum, với hiệu suất chuyển đổi từ 89% đến 94%. Máy chủ AI của GIGABYTE chủ yếu sử dụng PSU được chứng nhận 80 PLUS Titanium.

Một điều cần nhớ là tính dự phòng là cần thiết. Máy chủ phải vẫn hoạt động ngay cả khi một hoặc nhiều PSU bị hỏng. Máy chủ AI của GIGABYTE được thiết kế với số lượng nguồn điện dự phòng phù hợp. Một số máy chủ có thể tiếp tục hoạt động bình thường ngay cả khi một nửa PSU của nó ngừng hoạt động.

Làm thế nào để chọn Hệ thống quản lý nhiệt phù hợp cho máy chủ AI của bạn?

Không cần phải nói, tất cả các thành phần bên trong máy chủ tạo ra rất nhiều nhiệt. Việc chọn hệ thống quản lý nhiệt hoặc công cụ tản nhiệt phù hợp là quan trọng nếu bạn muốn máy chủ hoạt động hiệu suất cao mà không làm tăng hóa đơn điện.

Phương pháp truyền thống để giữ máy chủ mát là làm mát bằng không khí. Nói cách khác, quạt được lắp đặt trong máy chủ để đẩy không khí nóng ra ngoài hành lang của trung tâm dữ liệu. Tất cả máy chủ AI của GIGABYTE đều sử dụng thiết kế phần cứng thân thiện với dòng không khí độc quyền. Hướng dòng không khí trong thùng máy đã được đánh giá bằng phần mềm mô phỏng để tối ưu hóa thông gió. Quạt hiệu suất cao và tản nhiệt được lắp đặt để tăng cường tản nhiệt. Chương trình điều khiển tốc độ quạt tự động theo dõi nhiệt độ ở các điểm quan trọng trong thùng máy và điều chỉnh tốc độ của quạt (các) quạt tương ứng. Hồ sơ tốc độ quạt cũng có thể được điều chỉnh thủ công để đạt được sự cân bằng phù hợp giữa quản lý nhiệt và hiệu quả năng lượng.

Một số máy chủ AI, như máy chủ G363-SR0 của GIGABYTE, là máy chủ GPU tích hợp mô-đun NVIDIA HGX™ H100 4-GPU, cũng hỗ trợ làm mát bằng chất lỏng. Đây là phương pháp quản lý nhiệt độ mới sáng tạo, sử dụng chất lỏng làm mát chảy qua vòng lạnh quấn quanh các thành phần chính trong máy chủ và hấp thụ nhiệt. Làm mát bằng chất lỏng có tiềm năng phát huy tối đa khả năng của bộ vi xử lý đồng thời cải thiện tổng PUE của trung tâm dữ liệu.

Đỉnh cao của làm mát bằng chất lỏng là làm mát ngập, ngâm trực tiếp máy chủ vào bể chứa chất lỏng không dẫn điện, chất cách điện. GIGABYTE cung cấp cả giải pháp làm mát ngập một pha và hai pha. Ví dụ, A1P0-EB0 là giải pháp làm mát ngập toàn diện được thiết kế cho máy chủ chuẩn 19 inch EIA, trong khi A1O3-CC0 được thiết kế cho máy chủ OCP. Máy chủ AI của GIGABYTE có thể được điều chỉnh để làm việc với các phương pháp làm mát tiên tiến này sẽ tối ưu hóa TDP trong khi cải thiện tổng PUE.

Cách Chọn Khe Mở Rộng Phù Hợp Cho Máy Chủ AI Của Bạn?

Kể từ khi khả năng mở rộng - không gian lưu trữ để mở rộng bộ công cụ tính toán khi cần thiết - là quan trọng, bạn không nên quên chú ý đến khe mở rộng của máy chủ AI của mình. 

Đầu tiên, hãy tìm kiếm các khe PCIe Gen5 - càng nhiều càng tốt. Băng thông của PCIe Gen5 là 128 GB/s và tốc độ truyền dữ liệu là 32 GT/s; cả hai đều tăng 100% so với thế hệ trước. Những khe này sẽ cho phép bạn thêm các thẻ đồ họa, thẻ RAID - thậm chí là các DPU đã đề cập trước đó, có thể xử lý chuyển dữ liệu, nén dữ liệu, lưu trữ dữ liệu, bảo mật dữ liệu và phân tích dữ liệu cho CPU, từ đó cải thiện hiệu suất máy chủ.

Ngoài tiêu chuẩn bus, còn có không gian vật lý có sẵn trong thùng máy chủ. Bạn sẽ thấy các từ viết tắt như FHFL (full-height, full-length) và HHHL (half-height, half-length), tương đương với LP (low-profile). Những mô tả này chỉ ra kích thước của các thẻ mà các khe mở rộng được thiết kế để làm việc với. Đáng chú ý là mặc dù một thẻ nhỏ có thể vừa với khe được thiết kế cho thẻ lớn hơn, nhưng ngược lại thì không thể. Vì vậy, bạn phải lựa chọn giữa sự linh hoạt của các khe và mật độ tính toán bạn muốn đạt được. Các khe OCP mezzanine, cần thiết cho thẻ mạng và lưu trữ OCP, cũng nên có sẵn trong máy chủ AI của bạn nếu có khả năng bạn sẽ làm việc với những phụ kiện này.

Cách Chọn Cổng I/O Phù Hợp Cho Máy Chủ AI Của Bạn?

Điều cuối cùng cần suy ngẫm trong máy chủ AI của bạn là nó sẽ kết nối với các thiết bị bên ngoài như công tắc, màn hình và các máy chủ khác như thế nào. Như mọi khi, nguyên tắc chỉ đạo là cố gắng có nhiều công nghệ tiên tiến nhất. Hãy chọn cổng LAN hỗ trợ tốc độ truyền dữ liệu 1Gb/s hoặc thậm chí 10Gb/s, USB 3.0 hoặc cao hơn (như USB 3.2), v.v.

Bạn cũng có thể chú ý xem máy chủ của bạn có cổng quản lý chuyên dụng hay không, còn được gọi là MLAN. Những cổng này cung cấp quyền truy cập an toàn vào BMC của máy chủ, có thể hữu ích nếu bạn muốn một cách thuận tiện hơn để quản lý máy chủ của mình. Một khi mọi thứ được đặt vào đúng vị trí, bạn sẽ có một nền tảng siêu máy tính lý tưởng phù hợp với công việc AI của bạn.

 

Chia sẻ bài viết

Bình luận

( 0 bình luận )
Không có bình luận nào

Bình luận của bạn

Tin tức liên quan