OpenAI의 ChatGPT 는 사용자 상호 작용을 재정의하는 혁신적인 새 기능 세트를 도입하기 직전입니다.
에서9월 25일 공식 블로그 게시물을 통해 발표했습니다. 에서 사용자가 이미지와 음성 인식이라는 역동적인 매체를 통해 ChatGPT에 참여할 수 있도록 하는 향후 개선 사항을 공개했습니다.
이번 업그레이드의 주요 특징 중 하나는 사용자가 음성 명령을 통해 ChatGPT와 상호 작용할 수 있는 기능으로, 더욱 개인화되고 몰입감 있는 사용자 경험을 약속합니다.
이 기능은 전문 성우가 제작한 최소한의 샘플 음성을 기반으로 오디오를 생성하는 데 능숙한 텍스트 음성 변환 모델에서 그 힘을 얻습니다.
이 혁신적인 음성 인터페이스를 구동하는 데 있어 OpenAI의 오픈 소스 음성 인식 시스템인 Whisper가 필수적인 역할을 한다는 점은 주목할 만합니다.
이러한 음성 기능의 잠재적 응용 분야는 흥미로운 만큼이나 다양합니다.
사용자는 잠자리 이야기 읽기, 레시피 만들기, 연설문 작성, 시 낭송, 일반적인 문구 설명, 심지어 식탁 토론 중재에 이르기까지 광범위한 사용 사례를 기대할 수 있습니다;
OpenAI의 비전은 분명합니다. 개인이 일상에서 기술과 상호 작용하는 방식을 개선하고 풍요롭게 만드는 것입니다.
또한, OpenAI는 사용자가 해석 및 응답을 위해 이미지를 ChatGPT에 제출하거나 이미지 내의 특정 요소를 선택적으로 강조 표시하여 자세히 탐색할 수 있는 기능을 제공하기 위해 준비하고 있습니다.
회사 측에 따르면
"음성과 이미지를 통해 일상에서 ChatGPT를 더 다양한 방법으로 사용할 수 있습니다. 여행 중에 랜드마크의 사진을 찍고 흥미로운 점에 대해 실시간으로 대화를 나눌 수 있습니다."라고 말합니다;
이러한 추가 기능은 이론적인 GPT-5와는 다르지만, 그럼에도 불구하고 상당한 진전을 이룬 OpenAI의 GPT 비전 또는 GPT-V라는 범위 내에서 그 자리를 차지합니다.
이러한 요소들은향상된 멀티모달 버전의 GPT-4 는 올해 초 OpenAI의 기술 진화에 대한 이전 티저와 일치합니다.
이 중요한 업그레이드는 초기 테스터들로부터 뛰어난 품질과 정밀도로 찬사를 받은 텍스트-이미지 생성기인 DALL-E 3를 공개한 OpenAI의 뒤를 잇는 것입니다.
흥미로운 융합을 통해 DALL-E 3는 GPT-4에 의해 뒷받침되는 구독 서비스인 ChatGPT Plus 내에서 그 자리를 찾았습니다.
DALL-E 3와 대화형 음성 채팅의 결합은 인간의 인지 능력과 유사하게 세상을 인식하고 다양한 감각을 활용하여 사용자 경험을 향상시키는 AI 비서를 발전시키려는 OpenAI의 확고한 의지를 나타냅니다.
비전 및 음성 생성을 포함하는 멀티모달 AI 시스템과 관련된 위험은 없나요?
그러나 OpenAI는 비전과 음성 생성을 모두 포괄하는 멀티모달 AI 시스템의 기능을 강화하는 데 내재된 잠재적 위험에 대해 경계하는 입장을 유지하고 있습니다.
사칭의 위험, 숨어 있는 편견의 유령, 시각적 해석에 대한 복잡한 의존성 등이 우려되는 부분입니다.
이 회사는 발표에서 다음과 같이 말했습니다:
"OpenAI의 목표는 안전하고 유익한 AGI를 구축하는 것입니다. 우리는 도구를 점진적으로 제공함으로써 시간이 지남에 따라 개선하고 위험 완화 기능을 구체화하는 동시에 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿습니다."라고 말합니다;
전략적인 움직임으로 OpenAI는 이러한 혁신적인 기능에 대한 출시 계획을 설명했습니다.
플러스 및 엔터프라이즈 사용자에게는 향후 2주 이내에 이러한 기능에 대한 액세스 권한이 부여될 예정입니다.
또한 OpenAI는 후속 단계에서 이러한 액세스를 더 광범위한 개발자 커뮤니티로 확장할 계획을 가지고 있습니다.