제목: ChatGPT의 영상 이해 및 오디오-텍스트 변환 기능 제안
수신: OpenAI 고객지원팀
안녕하세요.
이 메시지가 귀하에게 잘 전달되기를 바랍니다.
저는 ChatGPT를 적극적으로 활용하고 있는 사용자로서, 특히 텍스트 생성과 이미지 이해 능력에 깊은 인상을 받아 왔습니다. 그런데 최근 하나의 영상 파일을 다루면서, ChatGPT가 단순히 프레임을 분석하는 수준을 넘어, 영상 속 발언 내용과 화면 자막까지도 함께 이해할 수 있었으면 좋겠다는 바람이 생겼습니다.
현재 ChatGPT가 영상 분석을 위해 프레임을 추출하고, 오디오가 있을 경우 Whisper 등을 통해 음성을 텍스트로 전환할 수 있다는 것은 알고 있습니다. 하지만 이러한 방식은 여전히 여러 수작업 단계를 요구하며, 영상을 하나의 흐름으로 ‘이해’하는 수준에는 도달하지 못한 것 같습니다.
이미 Riiid TUTOR나 뤼튼(Ruitn) 같은 다른 서비스들에서는 유튜브 영상을 텍스트로 자동 요약하는 기능을 제공하고 있습니다. 저는 OpenAI가 이보다 더 진보된 기능—예를 들어, 업로드된 영상에서 자막을 읽고, 음성을 텍스트로 변환하며, 전체 내용을 요약·해석하는 기능—을 제공할 수 있는 잠재력이 충분하다고 믿습니다.
이번 제안은 제가 OpenAI에 드리는 세 번째 제안입니다. 첫 번째 제안에는 정중하고 성의 있는 회신을 받았지만, 두 번째 제안에는 회신을 받지 못했습니다. 그럼에도 저는 모든 제안이 내부적으로 검토되고 있으리라 믿으며, 이렇게 중요한 플랫폼에 사용자로서 아이디어를 기여할 기회를 갖게 되어 진심으로 감사하게 생각합니다.
만약 이러한 기능이 이미 개발 중이라면 매우 기대가 됩니다. 아직 그렇지 않다면, 이 제안이 향후 OpenAI의 멀티모달 AI 발전 로드맵에 참고되기를 소망합니다.
계속해서 혁신을 이어가 주시고, 많은 이들에게 영감을 주는 시스템을 만들어 주셔서 감사합니다.
감사합니다.
신창호
To: support@openai.com
Subject: Feature Request: Video Understanding and Audio-to-Text Support in ChatGPT
Dear OpenAI Support Team,
I hope this message finds you well.
As an active and appreciative user of ChatGPT, I’ve been continually impressed by its capabilities—particularly in text generation and image understanding. Recently, however, I encountered a situation involving a video file in which I hoped ChatGPT could process not only the visual frames but also the spoken content and embedded captions. That experience led me to reflect on a key functionality I believe would greatly enhance ChatGPT: the ability to understand full videos in a more human-like, integrated way.
I understand that current video analysis in ChatGPT involves frame extraction and, when possible, audio transcription via Whisper. While powerful, this still requires some manual steps and does not yet enable full comprehension of a video’s narrative or dialogue in one seamless interaction.
Other services, such as Riiid TUTOR or Ruitn (뤼튼), have already introduced YouTube summarization tools that can automatically convert video content into text. I believe OpenAI has the unique potential to push this even further—offering users the ability to upload videos and receive complete, multimodal understanding including caption reading, speech-to-text, and summarized interpretation.
This is the third suggestion I’ve submitted to OpenAI. While I received a thoughtful reply to my first proposal, I didn’t hear back on the second. Nonetheless, I trust that all suggestions are being reviewed, and I truly appreciate the opportunity to contribute ideas to such an important platform.
If such features are already in development, I look forward to their release with great anticipation. If not, I humbly ask that this idea be considered as part of OpenAI’s roadmap toward even more advanced multimodal AI.
Thank you for your dedication and for building a system that continues to inspire and empower.
Sincerely,
Changho Shin.