솔루션

카테노이드는 다양한 분야에 최적의 비디오 서비스를 제공하고 있습니다.

게시물 상세
[미디어&방송] VCAST를 활용한 방송 다국어 자막 제작 기능
작성일 : 2021-05-13조회수 : 790
첨부파일 main_solution_media_2.jpg

디지털미디어 서비스와 AI /ML (Machine Learning)은 활발하게 연계되고 있으며 대표적인 사례로는 다국어 자막제작과 인덱싱 입니다. 


일반적인 자막 (Caption)편집  

자막 (caption)은 메타데이터 관리항목의 하나이며 미디어 자산 (Media Asset) 관리 시 수정편집작업이 필요할 수 있습니다. 또한 자막 편집기는
보통 Closed Caption을 활용합니다. 여러 단계로 콘텐츠가 진행될 수록 후반 작업의 중요도가 높아질 수 있습니다.


 


 

    
STT (Speech To Text)를 활용한 다국어 자막 생성


실제 영상과 자막파일 (주로 Close Caption)은 입수 경로가 다릅니다. 방송의 경우 프롬프터 (Prompter)나 대본을 그대로 업로드 할 수도
있으나 반드시 영상 내 음성과 일치하지 않을 수 있고 웹 접근성 (Web Accessibility) 준수를 위해서는 검수 작업도 필요할 수 있습니다.
AI와 ML의 정확도는 나날이 높아지고 있으며, 콘텐츠의 음성 분석과 다국어 자막이 필요한 경우에 AI와 ML을 시도해볼 수 있습니다.




상용화된 클라우드 AI/ML와 연동된 확장 기능을 통해 업로드 된 비디오 파일에서 오디오 파일을 추출하면서 동시에 음성에 대한
자막 파일을 생성합니다. 이 오디오 파일이 일반 파일과 다른 점은 발화자 (주로 배우, 등장인물) 을 구분하여 각각의 음성 파일을 생성한다는 점입니다.


이를 위해서는 영상과 오디오 파형, 그리고 생성되는 자막을 동기화 (synchronization) 하는 것이 매우 중요합니다.  



VCAST의 자막 편집 화면을 영상을 보면서 번역 및 검수 작업 용으로 바로 활용할 수도 있습니다. 

클라우드 확장 기능으로 원본 영상에 대한 발화자 별 자막이 생성되었더라도, 다국어 전환을 위해서는 뉘앙스나 적절한 단어 및 용어로의 검수작업을 필요로 할 수 있습니다.




영상파일에서 음성파일 추출한 뒤 STT (Speech To Text)를 활용하여 원본 자막을 생성하며, 외부 클라우드의 AL/ML 과 연계,
다국어 변환까지의 워크플로우를 생성합니다.  이후 기존 파일과 통합하거나 새 버전으로 생성하는 옵션까지 연계될 수 있습니다.
(외부 AI는 AWS가 대표적으로 사용되고 있습니다.) 


물론 생성된 자막은 기존 자막 수정 인터페이스에서 발화자 별로 수정편집이 가능합니다. 이러한 과정은 AI와의 연동이외 메타데이터
수정 편집 워크플로우가 상당히 정교하게 연결될 수 있어야 합니다.


상용화된 클라우드 기능을 이용한 확장 기능은 비디오 유통 워크플로우를 더 효율성을 높이기도 하지만 데이터 수집까지 연계할 경우
서비스 플랫폼의 가치를 보다 더 높일 수 있습니다. STT (Speech To Text)를 활용 쇼호스트의 멘트와 영상장면을 데이터로 전환하고,
시청데이터와 구매 이력 데이터를 가공하여 결합할 경우 보다 유의미한 데이터 체계를 만들 수도 있습니다.



VCAST :  AL-ML extension

이전글
다음글 실시간 공연 중계 및 티켓 서비스 오픈
TOP

Sitemap닫기

사업영역
비디오 스트리밍 플랫폼
비디오 유통 플랫폼
비디오 커머스 플랫폼
파트너
솔루션
고객지원
문의하기
카테노이드
회사소개
고객가치
공지사항
언론보도
채용