Nền tảng MultiRay của Meta tổng hợp đào tạo cho các mô hình AI quy mô lớn, chất lượng cao

1
Nền tảng MultiRay của Meta tổng hợp đào tạo cho các mô hình AI quy mô lớn, chất lượng cao

công ty mẹ Facebook Nền tảng Meta Inc. hôm nay đã công bố cải tiến mới nhất trong đào tạo trí tuệ nhân tạo. Nó được gọi là MultiRay, một nền tảng mới để chạy các mô hình AI mạnh nhất ở quy mô lớn, với hiệu quả cao hơn và chi phí thấp hơn.

Meta giải thích trong một bài viết trên blog rằng, cho đến nay, nhiều công ty đã buộc phải thỏa hiệp trên hệ thống AI của họ. Để đạt được kết quả tốt nhất có thể, một hệ thống AI xử lý văn bản, hình ảnh và các phương thức khác phải được đào tạo trên một tập dữ liệu khổng lồ, sau đó được chuyên môn hóa cho một nhiệm vụ cụ thể như xác định ngôn từ kích động thù địch.

Kết quả là một con ngựa một mánh có chất lượng cao nhưng cực kỳ đắt đỏ: Mô hình có thể rất xuất sắc trong việc phát hiện ngôn từ kích động thù địch, nhưng đó là tất cả những gì nó có thể làm. Vì vậy, quá trình này trở nên cực kỳ tốn kém đối với các nhóm muốn sử dụng AI để giải quyết nhiều vấn đề. Do đó, các mô hình AI có khả năng cao nhất hiếm khi được sử dụng trong thế giới thực và thay vào đó, các công ty thường dựa vào các thuật toán nhỏ hơn, đơn giản hơn và ít khả năng hơn.

MultiRay thay đổi điều này bằng cách cho phép sử dụng lại kết quả đào tạo AI cho nhiều tác vụ khác nhau. Nhiều mô hình AI được đào tạo cho các tác vụ cụ thể có thể chạy trên cùng một đầu vào, do đó chia sẻ chi phí xử lý giữa chúng. Nó dẫn đến chi phí xử lý trên mỗi mô hình thấp hơn nhiều khi tạo các mô hình AI mạnh hơn.

“Làm điều này giúp chúng tôi tối ưu hóa tổng chi phí thực hiện các tác vụ AI này,” nhóm AI của Meta đã viết trong một bài đăng trên blog. “Chúng tôi có thể dễ dàng giới thiệu các bộ tăng tốc AI hơn do tập trung tính toán toàn công ty vào một mô hình duy nhất và chúng tôi cũng có thể đánh đổi giữa sức mạnh tính toán và lưu trữ ở cấp độ công ty.”

MultiRay tạo ra cái mà Meta gọi là “các mô hình phổ quát” đã được đào tạo để hoạt động mạnh mẽ trên nhiều loại nhiệm vụ và lĩnh vực. Các mô hình đa năng này đã được chứng minh là mang lại kết quả chất lượng cao hơn, cho phép các nhóm của Meta cải thiện và lặp lại nhanh chóng trên tất cả các loại mô hình máy học cho nhiều loại ứng dụng, chẳng hạn như gắn thẻ chủ đề cho bài đăng, phát hiện ngôn từ kích động thù địch , tin giả, v.v. Mô hình như vậy đầu tiên của Meta được gọi là TextRay và nó đã được thiết lập và chạy từ năm 2020 để hỗ trợ các ứng dụng hiểu văn bản khác nhau.

Meta đang sử dụng MultiRay để tạo các hệ thống AI xung quanh nhiều phương thức hơn là chỉ văn bản. Chẳng hạn, một số bài đăng trên Facebook có thể chứa văn bản, hình ảnh và video. Trong trường hợp đó, các hệ thống AI của nó cần phân tích các yếu tố đó một cách riêng biệt và đánh giá chúng trong bối cảnh của các yếu tố khác. Thông thường, điều này sẽ liên quan đến việc kết hợp một số mô hình chuyên sâu về điện toán thành một mô hình lớn hơn, thậm chí chuyên sâu hơn nhiều.

Meta giải thích: “Kết quả là sự gia tăng về điện toán và tiêu thụ điện năng làm chậm nỗ lực của chúng tôi trong việc đưa các mô hình ML tiên tiến nhất vào sản xuất các sản phẩm và dịch vụ của chúng tôi”.

Để giải quyết thách thức này, Meta đã tạo PostRay, đưa khả năng hiểu văn bản và hình ảnh vào một mô hình duy nhất. Bởi vì các mô hình PostRay kết hợp nhiều khả năng vào một mô hình duy nhất, chúng phức tạp hơn để đào tạo, triển khai và bảo trì. Tuy nhiên, bằng cách sử dụng MultiRay, Meta cho biết, nó chỉ phải thực hiện các tác vụ này một lần và mô hình đó sau đó có thể được sử dụng lại bởi hàng chục nhóm khác nhau trong công ty.

Các nhà nghiên cứu của Meta cho biết: “Một hệ thống tập trung phục vụ mô hình đa ngành nghề cho phép chúng tôi làm việc trực tiếp với các nhóm nghiên cứu tiên tiến và đưa công trình của họ vào sản xuất ngay sau khi nó được xuất bản.

Meta cho biết có hai lợi thế chính của việc tập trung hóa các mô hình AI, với ưu điểm đầu tiên là khấu hao trên nhiều nhóm. Thông thường, việc đào tạo các mô hình mạnh mẽ đặt ra yêu cầu rất lớn đối với các tài nguyên chẳng hạn như các đơn vị xử lý đồ họa và mỗi mô hình phải được đào tạo riêng. Với MultiRay, các nhóm có thể đào tạo nhiều mô hình cùng một lúc và phân chia hóa đơn giữa chúng vì tất cả chúng đều có thể hưởng lợi từ cùng một tài nguyên.

Ưu điểm thứ hai là MultiRay cho phép quy trình vận hành và phát triển đơn giản hơn. Công ty giải thích: “MultiRay phục vụ một số lượng nhỏ các mô hình tập trung lớn, cho phép một nhóm duy nhất xử lý phần lớn các hoạt động và tối ưu hóa. “Các nhóm khách hàng sở hữu các mô hình nhỏ hơn, dành riêng cho nhiệm vụ, dễ quản lý hơn. Điều này cho phép nhiều nhóm không có đủ băng thông để đào tạo, triển khai và quản lý AI tiên tiến sử dụng công nghệ đó.”

Meta thừa nhận rằng việc triển khai MultiRay đã dẫn đến nhiều thách thức mới về quản lý khách hàng, hạn ngạch và phân bổ chi phí mà trước đây đã được giải quyết. Vì kích thước truy vấn và tỷ lệ truy cập bộ nhớ cache đều ảnh hưởng đến năng lượng cần thiết để xử lý truy vấn nên những thứ như hạn ngạch trở nên phức tạp hơn.

Ngoài ra, việc phân chia chi phí đào tạo các mô hình MultiRay chất lượng cao chỉ hoạt động nếu mỗi mô hình được sử dụng rộng rãi. Vì vậy, tất cả các mô hình phải cung cấp chất lượng hiện đại trong nhiều trường hợp sử dụng. Để đảm bảo điều này, Meta đã phải thực hiện một số khoản đầu tư lớn vào việc làm mới mô hình và đổi mới kiến ​​trúc mô hình mới cũng như quy trình đào tạo để giảm thời gian nghiên cứu và sản xuất.

Meta đã không nói bất cứ điều gì về mã nguồn mở cung cấp năng lượng cho MultiRay hoặc liệu nó có cung cấp mã đó cho các tổ chức hoặc nhà nghiên cứu khác hay không. Tuy nhiên, Meta có lịch sử cung cấp phần lớn nghiên cứu AI của mình cho cộng đồng, vì vậy những người khác có thể sớm được hưởng lợi từ các khả năng của MultiRay.

Hình ảnh: Freepik

Hãy thể hiện sự ủng hộ của bạn đối với sứ mệnh của chúng tôi bằng cách tham gia Câu lạc bộ Cube và Cộng đồng chuyên gia Sự kiện Cube của chúng tôi. Tham gia cộng đồng bao gồm Amazon Web Services và Giám đốc điều hành Amazon.com Andy Jassy, ​​người sáng lập kiêm Giám đốc điều hành Dell Technologies Michael Dell, Giám đốc điều hành Intel Pat Gelsinger cùng nhiều chuyên gia và nhân vật nổi tiếng khác.

bài viết tương tự

Leave a Reply