Làm thế nào để chọn máy chủ phù hợp cho AI? Phần Một: CPU & GPU
Với sự xuất hiện của AI tạo sinh (Generative AI) và các ứng dụng thực tế khác của trí tuệ nhân tạo, việc mua sắm "máy chủ AI" đã trở thành ưu tiên hàng đầu cho các ngành công nghiệp từ ô tô đến y tế, cũng như các cơ sở học thuật và cơ quan công cộng. Trong Hướng dẫn Kỹ thuật mới nhất của GIGABYTE Technology, chúng tôi sẽ hướng dẫn bạn từng bước qua tám thành phần chính của một máy chủ AI, bắt đầu từ hai khối xây dựng quan trọng nhất: CPU và GPU. Việc chọn đúng bộ xử lý sẽ là trọng tâm nền tảng siêu máy tính của bạn và đẩy nhanh các công việc tính toán liên quan đến AI.
Những người đọc thông thạo công nghệ sẽ nhận thấy việc đưa "máy chủ AI" vào chủ đề CNTT đã trở thành ưu tiên cho các tổ chức trong nhiều lĩnh vực, dù họ làm việc trong khu vực công hay tư nhân, tập trung vào học thuật, nghiên cứu, sản xuất hay dịch vụ. Điều này không có gì ngạc nhiên - trí tuệ nhân tạo đã chứng minh cải tiến công nghệ này là "bộ nhân lực" trong mọi lĩnh vực. Để minh họa bằng một vài ví dụ, AI tạo sinh (Generative AI) có thể hỗ trợ marketing, ghi chép và quan hệ khách hàng, trong khi các phát minh AI khác như thị giác máy tính có thể cải thiện năng suất và hiệu quả trong các cơ sở đa dạng từ trung tâm phân phối đến trạm thu phí trên đường cao tốc. Đối với đa số các công ty và tổ chức, câu hỏi không còn là "có" mua máy chủ AI nữa mà là "cái nào" nên được mua để đảm bảo rằng nó có thể đáp ứng kỳ vọng.
GIGABYTE Technology, một nhà tiên phong ngành trong giải pháp máy chủ AI và máy tính hiệu năng cao (HPC), đã biên soạn Hướng dẫn Kỹ thuật này để hướng dẫn bạn các bước chọn một máy chủ AI phù hợp. Trong Phần Một của bài viết hai phần này, chúng tôi sẽ tập trung vào CPU và GPU, hai sản phẩm bộ xử lý chính của máy chủ AI. Chúng tôi sẽ tư vấn cho bạn về các bộ xử lý máy chủ nào phù hợp với nhu cầu cụ thể của bạn, và cách bạn có thể đưa ra quyết định chính chắn sẽ thêm một nền tảng siêu máy tính AI mạnh mẽ vào bộ công cụ cho doanh nghiệp hay nghiên cứu của bạn.
Làm thế nào để chọn đúng CPU cho máy chủ AI của bạn?
Phân tích của chúng tôi bắt đầu với các đơn vị xử lý trung tâm (CPU) là trái tim và linh hồn của tất cả máy tính. CPU là "máy tính" chính nhận lệnh từ người dùng và hoàn thành các "chu kỳ chỉ thị" để cung cấp kết quả mong muốn. Do đó, một phần lớn làm nên sức mạnh của máy chủ AI chính là CPU ở trung tâm của nó.
Những ai quen thuộc với các sản phẩm hiện tại có thể mong đợi thấy sự so sánh từng điểm giữa CPU AMD và Intel, nhưng nó phức tạp hơn thế. Hai thương hiệu đứng đầu lĩnh vực CPU, với dòng CPU Intel® Xeon® thế hệ thứ 4 của Intel và dòng CPU AMD EPYC™ 9004 của AMD đại diện cho sự đỉnh cao của bộ xử lý x86 dựa trên CISC. Nếu bạn tìm kiếm hiệu suất xuất sắc cùng với hệ sinh thái đã được kiểm chứng, bạn không thể sai lầm với bất kỳ sản phẩm hàng đầu nào này của hai nhà sản xuất chip AMD và Intel. Hoặc nếu ngân sách là một vấn đề, bạn có thể xem xét các phiên bản cũ hơn của dòng CPU Intel® Xeon® và AMD EPYC™. Dòng Ryzen™ của AMD cũng là một lựa chọn tốt cho người mới bắt đầu khi công việc AI của bạn diễn ra với số lượng lõi chip ít hơn và khả năng đa luồng hạn chế hơn.
Nhưng trong cảnh quan AI ngày càng mở rộng, thị trường có những lựa chọn khác ngoài AMD và Intel. CPU dựa trên RISC đã trở thành một đối thủ nghiêm túc trong lĩnh vực siêu máy tính. Kiến trúc bộ chỉ thị đơn giản hơn của bộ xử lý RISC có nghĩa là chúng tiêu thụ ít năng lượng hơn trong khi chứa nhiều lõi hơn, cho phép chúng thể hiện khả năng tính toán ngang bằng với các đối tác x86.
Thực tế là hầu hết các thiết bị di động và thiết bị biên (đọc: điện thoại thông minh của bạn) chạy trên chip RISC có nghĩa là CPU dựa trên RISC có lợi thế bổ sung là "đám mây bản địa" - tức là chúng không cần bộ biên dịch để dịch dữ liệu thu thập được từ các thiết bị ngoại vi. Do đó, nếu công việc AI của bạn liên quan đến dữ liệu đến từ thiết bị di động và biên, bạn có thể xem xét thử nghiệm sản phẩm RISC.
Một trong những dòng CPU dựa trên RISC nổi tiếng nhất là ARM. GIGABYTE có một loạt các máy chủ ARM được cung cấp bởi CPU được xây dựng bởi Ampere. CPU Ampere® tiên tiến nhất chứa khoảng 200 lõi trong một bộ vi xử lý đơn, đồng thời cung cấp tỷ lệ hiệu suất so với công suất tốt nhất trong phân khúc, điều này thực sự giúp giảm TCO. Một bổ sung mới và thú vị khác cho dòng ARM là NVIDIA Grace™ CPU Superchip, kết hợp lõi ARM với các tính năng được cấp bằng sáng chế của NVIDIA, chẳng hạn như kết nối NVLink-C2C 900GB/s và LPDDR5X đầu tiên trên thế giới với bộ nhớ có mã hiệu chỉnh lỗi (ECC). Nếu bạn thường xuyên làm việc với bộ phần mềm AI của NVIDIA và muốn áp dụng phần cứng CPU của họ, Máy chủ Mật độ Cao H263-V60 của GIGABYTE là nền tảng siêu tính toán AI dành cho bạn.
Tại thời điểm này, chỉ còn lại việc quyết định bạn muốn một hay hai ổ cắm CPU trong máy chủ của mình. Cấu hình hai ổ cắm CPU có mật độ cao thường cung cấp hiệu suất và khả năng sẵn sàng tốt hơn, nhưng có chi phí tiêu thụ năng lượng cao hơn - và do đó, quản lý nhiệt độ yêu cầu cao hơn. Nếu đó là vấn đề, bạn có thể xem xét biến thể một ổ cắm, miễn là có đủ lõi trong CPU để đáp ứng yêu cầu tính toán AI của bạn.
Mặc dù không được hoàn toàn, biểu đồ này sẽ giúp bạn có ý tưởng tốt về bộ cấu hình CPU nào là tốt nhất cho công việc AI của bạn.
Làm thế nào để chọn GPU phù hợp cho Máy chủ AI của bạn?
Nhân vật phụ trong máy chủ AI là đơn vị xử lý đồ họa, hoặc GPU. Chúng hoạt động như bộ tăng tốc có thể giúp CPU xử lý công việc AI nhanh hơn nhiều. Lý do là GPU được trang bị các phiên bản đơn giản hóa của bộ công cụ của CPU, nhưng với số lượng chúng lớn hơn nhiều. Kết quả là GPU có thể chia nhỏ một tác vụ thành các phần nhỏ hơn và xử lý chúng đồng thời thông qua tính toán song song - đặc biệt nếu công việc bao gồm dữ liệu đồ họa, thường là trường hợp khi nói đến AI.
Khi chọn GPU cho máy chủ AI của bạn, bạn có thể giúp thu hẹp lựa chọn bằng cách tự hỏi: bản chất công việc AI của tôi có khả năng thay đổi đáng kể theo thời gian không? Hầu hết GPU hiện đại được thiết kế cho các tác vụ cụ thể. Kiến trúc chip của chúng có thể phù hợp với các tập con cụ thể của phát triển hoặc ứng dụng AI. Nhưng nếu bạn muốn máy chủ của mình có khả năng linh hoạt để xử lý một loạt các nhiệm vụ đa dạng, GPU dựa trên cấu hình FPGA (“field-programmable gate array”) có thể là lựa chọn tốt hơn. Khác với các chip ASIC (“application-specific integrated circuit”), chip FPGA có thể được lập trình lại sau khi sản xuất để thực hiện các chức năng khác nhau. Xilinx, đã được AMD mua lại, là nhà sản xuất chip FPGA nổi tiếng. Nhiều máy chủ GIGABYTE tương thích với bộ tăng tốc FPGA.
Câu hỏi tiếp theo cần xem xét là bạn chủ yếu tham gia vào quá trình đào tạo AI hay suy luận. Hai quá trình này là cơ sở của tất cả các lần lặp hiện đại của AI “bộ nhớ hạn chế”. Trong quá trình đào tạo, mô hình AI tiếp nhận một lượng lớn dữ liệu lớn với hàng tỷ, thậm chí là hàng nghìn tỷ tham số. Nó điều chỉnh “trọng số” của thuật toán của mình cho đến khi có thể liên tục tạo ra đầu ra chính xác. Trong quá trình suy luận, AI dựa vào “bộ nhớ” của quá trình đào tạo để phản ứng với đầu vào mới trong thế giới thực. Cả hai quá trình này đều rất tốn kém tính toán, và vì vậy các thẻ mở rộng GPU và mô-đun được cài đặt để giúp tăng tốc mọi thứ.
Đối với việc đào tạo AI, một số GPU được xây dựng với các lõi chuyên biệt và “động cơ” có thể tối ưu hóa quá trình. Một ví dụ tốt là NVIDIA HGX™ H100 8-GPU, có thể cung cấp hơn 32 petaFLOPS hiệu suất học sâu FP8. Mô-đun này được tích hợp trong các máy chủ G593-SD0, G593-SD2 và G593-ZD2 của GIGABYTE. Cũng có một biến thể của mô-đun với bốn GPU, được gọi là NVIDIA HGX™ H100 4-GPU. Nó được tích hợp trong GIGABYTE G363-SR0, hỗ trợ làm mát bằng chất lỏng để giải phóng hết tiềm năng của chip trong khi nâng cao PUE của trung tâm dữ liệu. Mỗi GPU H100 SXM5 chứa lõi Tensor thế hệ thứ tư sử dụng kiểu dữ liệu FP8 mới, cũng như một “Động cơ Biến đổi” để tối ưu hóa đào tạo mô hình. NVLink®, cung cấp băng thông lên đến 900 GB/s, được sử dụng để kết nối các bộ vi xử lý, trong khi NVSwitch được sử dụng để phối hợp cụm.
AMD Instinct™ MI300X là một lựa chọn mạnh mẽ khác, tuân theo chuẩn Open Compute Project (OCP) OAM. Một trong những đặc điểm nổi bật của nó là dung lượng bộ nhớ lớn và khả năng xử lý dữ liệu cao, điều này rất quan trọng cho các tác vụ AI tạo sinh (Generative AI), như được thấy trong mô hình ngôn ngữ lớn (LLM). Điều này cho phép các LLM như Falcon-40, một mô hình với 40 tỷ tham số, chạy trên một bộ tăng tốc MI300X duy nhất. Nền tảng AMD Instinct™ là một mô-đun kết hợp tối đa tám GPU MI300X cho hiệu suất hàng đầu trong tính toán AI. Hãy chờ đợi nó xuất hiện trên các máy chủ GIGABYTE rất sớm.
Nếu bạn cần phải từ bỏ một chút hiệu suất để đảm bảo rằng nằm trong giới hạn ngân sách, hoặc nếu bộ dữ liệu bạn đang huấn luyện AI không quá lớn, bạn có thể xem xét các sản phẩm khác từ AMD và NVIDIA. GIGABYTE có một dòng giải pháp đầy đủ hỗ trợ Dòng tăng tốc AMD Instinct™ MI200. GPU NVIDIA L40S, được hỗ trợ bởi GIGABYTE G493-SB0, G293-S40, G293-S41 và G293-S45, cũng được khuyến nghị cao cho việc huấn luyện AI. Máy chủ Rack R162-Z11 là một ví dụ khác về máy chủ đa năng không bao gồm mô-đun tính toán, nhưng có khe cắm PCIe có thể hỗ trợ tối đa ba GPU NVIDIA.
Vì GPU là chìa khóa để xử lý các tác vụ AI, nên việc chọn đúng lựa chọn dựa trên yêu cầu thực tế của bạn là quan trọng.
Đối với AI Inference (suy luận), hãy cố gắng tìm kiếm GPU có ưu điểm cụ thể cho từng kịch bản người dùng. Ví dụ, một trong những máy chủ AI Inference (suy luận) tốt nhất trên thị trường là GIGABYTE G293-Z43, chứa cấu hình dày đặc của mười sáu thẻ AMD Alveo™ V70 trong một khung 2U. Những GPU này dựa trên kiến trúc XDNA™ của AMD, được biết đến với kiến trúc dòng dữ liệu thích ứng cho phép dữ liệu đi qua các lớp của một mô hình AI mà không cần bộ nhớ bên ngoài. Điều này có tác dụng cải thiện hiệu suất và giảm độ trễ, làm cho G293-Z43 trở thành giải pháp lý tưởng cho các tác vụ AI đòi hỏi cao. Máy chủ GIGABYTE với nhiều khe cắm mở rộng PCIe Gen 4 (hoặc cao hơn) cũng tương thích với GPU NVIDIA A2 Tensor Core và L4 Tensor Core, nhắm vào việc giải quyết các tác vụ AI Inference (suy luận).
Nếu tác vụ AI Inference (suy luận) chủ yếu xảy ra trên đám mây, các thuộc tính khác như hiệu quả năng lượng và xử lý tín hiệu có thể quyết định. Trong trường hợp này, bạn có thể xem xét GPU Qualcomm® Cloud AI 100, có thể suy luận trên máy chủ biên hiệu quả hơn vì chúng đáp ứng nhu cầu độc đáo của điện toán đám mây. Những bộ tăng tốc này có thể được triển khai trong nhiều máy chủ GIGABYTE, bao gồm Máy chủ GPU Dòng G, Máy chủ Rack Dòng R và Máy chủ Biên Dòng E.
Cuối cùng, vì yêu cầu tính toán cho việc huấn luyện AI thường cao hơn so với suy luận, hầu hết máy chủ inference (suy luận) cũng có thể được sử dụng cho tác vụ suy luận. Một xu hướng hấp dẫn khác do các nhà lãnh đạo ngành dẫn đầu là gói "CPU cộng với GPU" cung cấp tốt nhất của cả hai thế giới cho tất cả các loại tác vụ AI và HPC. NVIDIA Grace Hopper™ Superchip, có sẵn trên máy chủ GIGABYTE H223-V10 và H263-V11 High Density, và AMD Instinct™ MI300A, là APU (đơn vị xử lý tăng tốc) đầu tiên của AMD, là hai ví dụ xuất sắc về trường phái tư duy mới này. Chọn những sản phẩm này nếu bạn muốn làm việc với nền tảng siêu máy tính tinh vi nhất hiện nay.
(Theo Gigabyte.com)