저자: 알파투 출처: X, @알파투4 번역: 굿오바, 골든파이낸스
이후로 2023년 9월, OpenAI는 ChatGPT 플랫폼에 새로운 음성 및 이미지 기능을 추가하여 사용자가 음성 대화를 나누고 이미지를 공유할 수 있는 보다 직관적인 인터페이스를 도입하여 전반적인 사용자 경험을 향상시켰습니다.
이러한 상황은 이미 뜨거운 인기를 끌고 있는 복합 교통수단의 인기를 더욱 부추기고 있습니다.
![7172053](https://img.jinse.cn/7172053_watermarknone.png)
사실, 음성 및 이미지 기능의 통합은 사용자가 생활의 모든 측면에서 ChatGPT와 상호 작용할 수 있는 다양한 방법을 제공합니다. 이제 사용자는 이동 중이든 집에서든 이러한 멀티모달 기능을 활용하여 더욱 몰입감 있는 방식으로 AI 모델과 상호 작용할 수 있으며, 이전에는 불가능했던 많은 제품 시나리오에 상상력을 더할 수 있습니다.
멀티모달은 범용 언어 모델보다 산업 시나리오에서 더 널리 사용될 것입니다.
멀티모달 AI란 무엇인가요?
멀티모달 AI는 여러 양식 또는 소스의 정보를 이해하고 처리할 수 있는 AI 시스템 및 모델을 말합니다. AI의 맥락에서 모달리티는 텍스트, 이미지, 오디오, 비디오 또는 기타 유형의 데이터와 같은 다양한 형식 또는 입력 채널을 의미합니다. 멀티모달 AI는 다양한 모달리티의 정보를 통합하고 분석하여 데이터를 보다 포괄적으로 이해하는 것을 목표로 합니다.
그래픽 처리 장치(GPU 또는 TPU)의 광범위한 사용은 딥러닝 AI의 발전에 크게 기여했습니다. 그러나 제너레이티브 AI는 토큰 형태의 데이터와 뉴런 간의 연결 수를 나타내는 매개변수를 받아들일 수 있는 무한한 능력을 제공함으로써 이러한 발전을 더욱 진전시켰습니다. 또한, 부동 소수점 연산(FLOPS)이라는 컴퓨팅 성능 지표를 활용합니다. 최신 GPT-4 모델에는 텍스트와 이미지를 혼합할 수 있는 멀티모달 기능이 탑재되어 있으며, 다양한 자연어 처리 작업에서 기존 LLM보다 뛰어난 성능을 발휘한다는 평가를 받고 있습니다.
멀티모달 AI와 산업 시나리오
그러나 유니모달 데이터의 제약은 실제 시나리오, 특히 산업 시나리오에서 문제를 일으키며 멀티모달 AI의 도입을 요구하고 있습니다.
정보가 풍부한 시나리오에서는 '언어적' 모델에 의존하는 것만으로는 충분하지 않습니다. 효과적인 의사 결정과 정보 평가를 위해서는 여러 신호가 필요합니다.
제조업을 예로 들면 이미지, 온도, 무게 등에 대한 방대한 양의 데이터가 존재합니다. 이 경우 언어에만 의존하는 것만으로는 충분하지 않습니다. 이 경우 언어 모델에만 의존하는 것만으로는 충분하지 않으며, 다양한 형태의 정보를 통합해야 할 필요성이 강조됩니다.
헬스케어 분야를 예로 들어보겠습니다. 의사들이 대면 진단을 선호하는 이유는 무엇이며, 현재의 AI가 질병을 완벽하게 진단하지 못하는 이유는 무엇일까요? 그 해답은 의사가 텍스트와 환자의 모습을 분석한다는 사실에 있습니다. 특정 엑스레이를 검사할 때 의사는 이미지나 텍스트 구절만 추출하는 것이 아니라 복합적인 정보를 해석하면서 그룹 토론과 협의를 진행합니다.
멀티모달 입력은 텍스트에만 국한되지 않고 소리, 적외선 데이터 및 기타 요소를 포함합니다. 이 접근 방식은 모델이 다차원적으로 사고하도록 훈련하는 데 도움이 됩니다.
카메라 전용 시스템이 장착된 자율주행차의 경우 어두운 곳에서 보행자를 인식하는 것이 어려울 수 있습니다. 이러한 문제를 완전히 해결하려면 라이다, 레이더, GPS의 조합이 필수적입니다. 이러한 통합을 통해 차량이 주변 환경을 더욱 완벽하게 감지하여 주행 안전성과 신뢰성을 높일 수 있습니다.
여기서의 기본 원칙은 복잡한 이벤트를 더 깊이 이해하기 위해 여러 감각을 통합하는 것이 중요하다는 것을 강조합니다. 멀티모달 AI를 활용하면 텍스트 정보, 사진, 비디오, 오디오를 융합하여 주어진 상황에 대한 일관되고 포괄적인 설명을 구성할 수 있습니다.
인공지능은 근본적으로 지식의 문제를 해결하는 반면, 인터넷은 주로 정보의 문제를 해결합니다. 지식은 본질적으로 도메인에 특화되어 있으며 인터넷의 보편성이 부족합니다. 제조업계에서 분야별 전문가와 멀티모달 AI 역량을 협력적으로 통합하면 비용을 크게 절감하고 효율성을 높일 수 있는 잠재력이 있습니다.