Trước WWDC24, Apple đã phát hành “mô hình ngôn ngữ hiệu quả cao với khung suy luận và đào tạo nguồn mở” có tên OpenELM trên nền tảng Hugging Face. Đây là một mô hình ngôn ngữ nguồn mở và mã nguồn cũng như trọng số mô hình được đào tạo trước cũng như công thức đào tạo có sẵn trong kho lưu trữ Apple Github.
Theo báo cáo, OpenELM sử dụng chiến lược mở rộng quy mô phân cấp có thể phân bổ hiệu quả các tham số của từng lớp của mô hình Transformer, từ đó cải thiện độ chính xác. Ví dụ: khi số lượng tham số khoảng 1 tỷ, OpenELM cải thiện độ chính xác thêm 2,36% so với OLMo, trong khi số lượng mã thông báo đào tạo trước cần thiết chỉ bằng 50% so với ban đầu.
Không giống như thông lệ trước đây chỉ cung cấp trọng số mô hình và mã suy luận cũng như đào tạo trước trên các tập dữ liệu riêng tư, phiên bản do Apple phát hành chứa một khung hoàn chỉnh để đào tạo và đánh giá các mô hình ngôn ngữ trên các tập dữ liệu công cộng, bao gồm nhật ký đào tạo, nhiều điểm kiểm tra và đào tạo trước. cấu hình.
Nó cũng phát hành mã chuyển đổi mô hình thành thư viện MLX để suy luận và tinh chỉnh trên các thiết bị Apple. Bản phát hành toàn diện này nhằm mục đích tăng cường và củng cố cộng đồng nghiên cứu mở và mở đường cho những nỗ lực nghiên cứu mở trong tương lai. (Trang chủ CNTT)