출처: 메타버스의 심장
구글, 삼성, 마이크로소프트가 PC와 모바일 기기에서 AI 생성 기술을 계속 밀어붙이고 있는 것처럼, 애플도 OpenELM으로 그 대열에 합류합니다.
클라우드에 연결할 필요 없이 단일 기기에서 완전히 실행 가능한 새로운 오픈 소스 LLM(대규모 언어 모델)의 제품군입니다. 서버에 연결할 필요가 없습니다.
01. 모델 기능 및 성능
현지 시간으로 수요일 인공지능 코드 커뮤니티인 Hugging Face에 공개된 OpenELM은 텍스트 생성 작업을 효율적으로 수행하도록 설계된 일련의 작은 모델로 구성되어 있습니다.
OpenELM에는 사전 학습된 모델 4개와 명령어 튜닝 모델 4개 등 총 8개 모델이 있으며, 2억 7천만 개에서 30억 개의 다양한 파라미터(파라미터는 LLM에서 인공 뉴런 간의 연결 수를 의미하며, 일반적으로 파라미터가 많을수록 성능이 높고 기능이 더 많음을 나타냅니다)를 포함합니다.
사전 학습은 일관성 있고 잠재적으로 유용한 텍스트를 생성하도록 LLM을 학습시키는 방법이지만 주로 예측 연습인 반면, 명령어 튜닝은 특정 사용자 요청에 대해 LLM이 보다 관련성 높은 결과물을 생성하도록 하는 방법입니다.
예를 들어 "빵 굽는 방법 알려줘"라는 사용자의 프롬프트에 직면했을 때, 사전 학습을 통해 모델은 실제 단계별 지침 대신 "집에 있는 오븐을 사용하세요"와 같은 간단한 텍스트로 프롬프트를 완성하는 결과를 얻을 수 있습니다.
Apple은 "샘플 코드 라이선스"라는 이름으로 OpenELM 모델의 가중치와 다양한 학습 체크포인트, 모델 성능 통계, 사전 학습, 평가, 명령어 튜닝 및 매개변수 미세 조정에 대한 설명을 제공합니다.
샘플 코드 라이선스는 상업적 사용이나 수정을 금지하는 것이 아니라 'Apple 소프트웨어의 전체 내용을 수정하지 않고 재배포하는 경우 이 고지를 텍스트에 유지해야 한다'고 명시하고 있을 뿐입니다.
Apple은 또한 해당 모델에는 "어떠한 보안 보증도 제공되지 않는다"고 언급했습니다. 따라서 이러한 모델은 사용자 프롬프트에 따라 "부정확하거나, 유해하거나, 편향되거나, 불쾌한 출력"을 생성할 가능성이 있습니다.
비밀주의로 악명 높고 일반적으로 '폐쇄적인' 기술 기업인 Apple은 모델과 논문을 온라인에 게시하는 것 외에 이 분야의 연구 과정을 공개적으로 발표하지 않았습니다.
또한 작년 10월에는 멀티모달 기능을 갖춘 오픈소스 언어 모델인 Ferret을 조용히 발표해 화제가 되기도 했습니다.
오픈 소스 효율적인 언어 모델의 약자인 OpenELM은 이제 막 출시되어 아직 공개 테스트 중이지만, 허깅페이스에 등재된 Apple의 목록에 따르면 경쟁사인 구글, 삼성, 마이크로소프트와 마찬가지로 해당 모델의 디바이스 앱을 타깃으로 하고 있음을 시사합니다.
이번 주에 Microsoft가 스마트폰에서만 실행되는 Phi-3 Mini 모델을 출시했다는 점도 주목할 필요가 있습니다.
02. 기술적 세부 사항 및 교육 과정
모델 제품군을 설명하는 논문에서 Apple은 OpenELM의 개발을 "사친 메타가 주도하고 모하마드 라스테가리와 피터 자틀루칼이 주요 기여자로 참여했습니다. " 그리고 이 모델군은 "개방형 연구 커뮤니티에 권한을 부여하고 강화하며 미래의 연구 노력을 촉진하는 것을 목표로 한다"고 설명합니다.
OpenELM 모델은 2억 7천만, 4억 5천만, 11억, 30억의 네 가지 파라미터 크기로 제공되며, 이는 일반적으로 약 70억 개의 파라미터를 가진 고성능 모델보다 작은 크기이며, 각각 사전 학습 및 지시된 버전으로 제공됩니다.
모델은 Reddit, Wikipedia, arXiv.org 등의 사이트에 있는 1조 8천억 개의 토큰으로 구성된 공개 데이터 세트로 사전 학습되었습니다.
모델은 상용 노트북과 일부 스마트폰에서 실행하기에 적합합니다! 벤치마크는 "인텔 i9-13900KF CPU, 엔비디아 RTX 4090 GPU, 우분투 22.04 워크스테이션, 맥북 프로와 맥OS 14.4.1"에서 실행되었습니다.
흥미롭게도 새로운 제품군의 모든 모델은 트랜스포머 모델의 각 레이어에 매개변수를 할당하는 계층화된 확장 전략을 사용합니다.
애플에 따르면, 이를 통해 계산 효율성을 개선하면서 더 높은 정확도의 결과를 제공할 수 있다고 합니다. 한편, 애플은 새로운 코어넷 라이브러리를 사용하여 모델을 사전 훈련했습니다.
애플은 허깅페이스에 "사전 학습 데이터 세트에는 RefinedWeb, 중복 PILE, RedPajama의 하위 집합, Dolma v1.6의 하위 집합으로 총 약 1조 8천억 개의 토큰이 포함되어 있다"고 언급했습니다."라고 설명했습니다. p>
성능 측면에서 Apple이 공유한 OpenLLM 결과에 따르면 모델의 성능이 상당히 우수하며, 특히 4억 5천만 개의 매개변수 표시기 변형의 성능이 뛰어납니다.
또한 11억 개의 파라미터를 가진 "OpenELM 변형"은 12억 개의 파라미터를 가진 "OLMo"보다 2.36% 더 우수한 성능을 보이지만 사전 학습된 토큰은 두 배 더 적게 필요합니다.
OLMo는 앨런 인공 지능 연구소(AI2)에서 최근 발표한 "진정한 오픈 소스, 최첨단 대규모 언어 모델"입니다.
03.성능 테스트 및 커뮤니티 피드백
사전 학습된 OpenELM-3B 변형은 지식과 추론 능력을 테스트하도록 설계된 ARC-C 벤치마크에서 42.24%의 정확도를 기록했습니다. 반면 MMLU와 HellaSwag에서는 각각 26.76%와 73.28%의 정확도를 기록했습니다.
OpenELM 모델을 테스트해 본 한 사용자는 "신뢰할 수 있는 모델이지만 매우 획일적"이라며 "답변이 광범위하게 창의적이지도 않고 NSFW 영역으로 모험을 떠날 가능성도 없다"고 지적했습니다.
경쟁사인 Microsoft가 최근 출시한 38억 개의 파라미터와 4K 컨텍스트 길이를 갖춘 Phi-3 Mini가 현재 이 분야를 선도하고 있습니다.
최근 공유된 통계에 따르면 OpenELM은 10개의 ARC-C 벤치마크에서 84.9%, 5개의 MMLU 테스트에서 68.8%, 5개의 HellaSwag 테스트에서 76.7%의 점수를 기록했습니다.
오픈ELM의 성능은 장기적으로 개선될 것으로 예상됩니다.
하지만 Apple의 오픈 소스 이니셔티브는 이미 커뮤니티를 흥분시키고 있으며, 커뮤니티가 다양한 환경에서 OpenELM을 어떻게 사용하는지 살펴볼 것입니다.
04. Apple의 인공 지능 비전
Apple은 생성형 AI 계획에 대해 조용했지만 새로운 AI 모델을 출시하면서 최근 야망이 'AI 작동'에 확고하게 설정되어 있는 것으로 보입니다. "애플 기기에서 AI가 기본적으로 실행되도록 만드는 것"입니다.
애플의 CEO 팀 쿡은 올해 2월에 "AI 생성 기능이 애플 기기에 탑재될 것"이라고 말하며 애플의 AI를 애플 기기에서 사용할 수 있을 것이라고 예고한 바 있습니다. 또한 그는 2월에 애플이 이 분야에 "많은 시간과 노력을 기울이고 있다"고 말했습니다. 그러나 애플은 아직 AI 애플리케이션에 대한 구체적인 내용을 공개하지 않았습니다.
애플은 이전에 다른 AI 모델을 출시한 적이 있지만, 경쟁사처럼 상업적 용도의 AI 기반 모델은 출시하지 않았습니다.
작년 12월에는 OpenELM 외에도 AI 모델을 Apple 실리콘에서 더 쉽게 실행할 수 있는 머신 러닝 프레임워크인 MLX를 출시했습니다. 또한 사람들이 힌트를 통해 사진을 수정할 수 있는 MGIE라는 이미지 편집 모델도 출시했습니다. 또한 스마트폰 내비게이션에 사용할 수 있는 Ferret-UI라는 모델도 출시되었습니다.
하지만 애플이 공개한 모든 모델에도 불구하고 애플은 구글과 OpenAI에 자사의 모델을 애플 제품에 적용하기 위해 연락을 취한 것으로 알려졌습니다.