본문 바로가기
Tech_IT_News

새 인공지능 모델 GPT-4o 공개

by 엄청친절한아재 2024. 5. 14.
728x90

생중계를 통해 GPT-4o를 공개

2024년 5월 13일
샌프란시스코의 인공지능(AI) 업체 오픈AI의 최고기술책임자(CTO)인 Mira Murati(미라 무라티)가 생중계를 통해 GPT-4o를 공개했습니다.
 

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.
오디오, 비전, 텍스트를 실시간으로 추론할 수 있는 새로운 플래그십 모델인 GPT-4o를 발표합니다.

 
홈페이지 제목아래 설명에 써있듯이 이번 버전에는 오디오 성능과 카메라를 통해 사용자의 환경을 분석하고 답을 내 놓을수 있는 기술이 도입된것 같습니다.
 
GPT-4o에서 "o"는 “omni”옴니모델(Omnimodel)을 뜻합니다.
인간과 컴퓨터의 상호작용을 더욱 자연스럽게 하기 위한 단계로, 텍스트, 오디오, 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지 출력의 모든 조합을 생성합니다.
 

응답 지연시간 축소

GPT3.5는 2.8초, GPT4.0은 5.4초의 지연시간이 있었습니다.
하지만 GPT-4o에선 오디오 입력에 232밀리초(0.232초) 이내에 응답할 수 있으며,
이는 평균 320밀리초(0.32초)와 유사합니다.
 

한국어를 포함한 50개 이상의 언어를 지원합니다.

기존 음성 챗봇과 달리 농담 섞인 자연스러운 대화가 가능하고 다양한 ‘말투’로 대답합니다.
영상에서는 뮤지컬 배우처럼 노래하듯 말하는 장면도 보여주었습니다.
GPT-4o 간 대화도 가능하고 서로 노래를 주고 받기도 했습니다.
삼성전자의 최신 스마트폰 갤럭시S24처럼 실시간 통번역도 가능하다고 합니다.
이탈리아어를 GPT-4o가 영어로 번역해 말해주고, 영어로 대답하면 이를 다시 이탈리아어로 번역해 말하는 식으로 번역이 가능해졌습니다.
 

비전인식 강화

비전 인식도 더욱 개선되어 카메라를 통해 ‘시야’를 인식해
공간의 분위기나 사람의 기분을 이해하고
수학식을 실시간으로 해석해 선생님처럼 풀이 과정을 안내해주기도 했습니다.
이날 오픈AI는 간단한 수식 풀이 과정을 GPT-4o가 도와주는 모습을 시연했습니다.
‘3x+1 = 4’라는 수식을 보여주면 “x를 구하기 위해서는 1을 한 곳에 모아야 한다”고 답했습니다.
직접적인 풀이법을 제시하는 것이 아니라 ‘풀이법’을 차근차근 알려주는 겁니다.
 

전면 무료사용 제공

GPT-4o는 무료 사용자를 포함한 모든 사용자에게 gb4 수준의 지능을 제공하는데 더 빨라졌다고 합니다.
무료로 제공되던 GPT-3.5를 더 나은 성능의 GPT-4o가 대체하게 됩니다.
단, 이미지 생성 및 실시간 인터넷 검색 기능GPT-4 유료 요금제 구독자만 가능하다고 합니다.

 
애플은, 내달 시리에 생성형 AI 탑재 할것이라고 전망했습니다.
홈페이지에 보면 여러가지 기능을 구현한 샘플이 있는데 하나씩 살펴보겠습니다.
 
1) 첫번째 샘플에서는 기존의 방법대로 프롬프트를 입력하는데 이미지의 내용에 정확한 글씨를 넣을수 있게 되었습니다. 

 
2) 두번째 샘플에서는 웹툰형식으로 일관된 캐릭터를 설명하는 상황에 따라 정확하게 그려줍니다.

 
3) 다음은 사용자가 임의의 사진을 넣은다음 영화 포스터를 만들어 달라고 명령을 내립니다.
 

 
4) 반복편집이 가능한 시 타이포그라피

 

 
그 외 여러 기능을 보여주는 샘플이 있는데 홈페이지에서 확인하시면 좋을것 같습니다.

구글 번역

 
 
https://youtu.be/MirzFk_DSiI

 
 
무료라고 하는데 아직은 적용이 안된것 같습니다. 아직 3.5버전밖에 안나오네요...

300x250