[연재29] AI로 시낭송 아바타 따라잡기

2023. 3. 22. 13:38인간이 묻고 인공지능이 답하다

본 포스트는 인공지공으로 실제사진과 아바타를 이용하여 대화하는 상황을 연출하여 보도록 하겠습니다. 실사가 이야기하고 나면 바로 아바타가 대답하는 질문과 대답형식으로 형식으로 진행하되 각각 질문과 답만 하는 형식으로 진행하겠습니다. 질문과 대답은 2분내외라고 해도 영상의 길이는 최소한 3분이상이기 때문에 긴 내용을 생략하고 어떻게 진행되는지를 파악하고 이해하여 다른 프로젝트에 적용하는 방법을 생각하는 시간을 가지도록 하겠습니다.

 

1. 실사사진과 아바타 사진 구하기

실사사진은 자신이 가지고 있는 사진이면 됩니다. 그리고 아바타사진은 자신의 사진으로 만든 사진이나 스마트폰에서 실사를 아바타로 변경해주는 앱을 이용하여 만드시면 됩니다. 그렇기 때문에 여기서는 생략하도록 하겠습니다.

 

2. 음성파일 만들기전에 알아둘어야 할 것들

음성파일을 직접녹음하는 방법과 브루를 통해 음성파일을 만드는 방법이 있습니다. 본 포스트에서는 편의상 모두 음성파일을 브루에서 만들도록 하겠습니다 음성파일을 만드실 때에는 스마트폰으로 직접 녹음하거나 컴퓨터에서 녹음프로그램을 통해녹음하시면 됩니다. 대화당 최대 시간은 1분30초에서 최고 1분 59초이내로 해 주세요. 물론 그 이상으로 해주셔도 되겠지만 무료로 사용하는 프로그램을 이용해야 하기 때문에 이 부분은 지켜 주시면 좋겠습니다. 

 

3. 챗GPT로 대본 만들기 

브루를 통해 음성을 녹음하기 전에 대본, 시나리오가 있으면 좋겠죠. 그냥 녹음해도 좋겠지만 대본이 있으면 조금 더 대화의 내용이나 진행이 부드러울 수 있기 때문입니다. 필자의 경우 chatgpt로 대화내용을 간략히 작성합니다  chatgpt를 실행한 후 이렇게 지시합니다.

첫 인사와 함께 간략하게 자기소개와 함께 한 편의 시를 읽어달라고 요청하는 멘트를 부탁해 
- 내용안에는 이렇게 넣어죠. 안녕하세요 앵커 이동현입니다. 만나서 반갑습니다
- 최근에 시집을 내셨죠. 좋은 시가 있다든데 읽어 주실래요 라는 대사가 들어가셔면 좋겠습니다.
- 간략하게 작성해 주세요 대화체로요

 

대본
인공지능 앵커 이동현

안녕하세요 . 이동현 앵커님입니다,  시인 아바타님 반갑습니다!

최근에 출간된 아바타님의 만남과 이별이라는 시집에서 좋은 시가 있다고 해서 듣고 싶어 초대했습니다
만남과 이별, 그리고 회상이라는 시라고 하든데 준비되었으면 부탁드립니다.
인공지능 시인 아바타
네. 알겠습니다.  그리움.  인공지능 시인 아바타. 만남, 기쁨의 포옹, 이별, 완벽한 은혜의 눈물, 리콜, 메아리가 선명하게 울리고, 그리움, 언제나 가까이 있는 불꽃. 감사합니다. 짧은 시이지만 저의 마음이 담긴 삶의 이야기입니다.


- 시는 만남과 이별, 회상, 그리움의 내용이 담긴 주제로 적어달라고 요청합니다.  아래는 인공지능이 작성한 시 입니다  내용은 잘 만들었지만 너무나 길죠 그래서 4줄로 함축해서 만들어 달라고 요청했습니다. 

 

갈망

인공지능 시인 아바타


만남, 기쁨의 포옹의 순간,
마침내 마주한 두 영혼,
달콤한 기대에 설레는 마음,
사랑의 따뜻한 감각에 몸을 담그고 싶어합니다.

이별, 씁쓸하고 달콤한 교향곡,
완벽한 하모니를 이루며 흐르는 눈물,
지금 찢어진 두 마음,
다시 시작할 또 다른 기회를 갈망합니다.

회상, 기억의 길을 통한 여행,
웃음도, 눈물도, 기쁨도, 아픔도,
여전히 선명하게 울리는 사랑의 메아리,
해마다 우리의 마음을 잡아당기고 있습니다.

그리움, 변함없는 동반자,
영원히 존재하며 결코 취소되지 않는,
깊은 곳에서 타오르는 불꽃,
소멸 또는 거부를 거부합니다.

 

그리움

인공지능 시인 아바타

만남, 기쁨의 포옹,
이별, 완벽한 은혜의 눈물,
리콜, 메아리가 선명하게 울리고,
그리움, 언제나 가까이 있는 불꽃.

 

 

4. 이미지를 동영상으로 만들기

 

이미지를 동영상으로 만들어야 아바타와 연결할 수 있습니다 이전에 준비한 아바타와 실사사진을 불러와 동영상을 만들도록 하겠습니다.  아래의 웹사이트에 들어가서 구글계정으로 로그인합니다. 이미지를 동영상으로 만들기 위해 움직이는 표정을 넣어야겠죠. 그래서 아래 페이지에 와서 작업을 시작합니다. 최고 6초로 만들어집니다.  실제 우리가 편집할 오디오와 영상은 아래와 같습니다. 

오디오 길이 : 시인아바타 :  15초,  이동현앵커 : 19초 입니다. 

차이가 나도 문제가 되지 않습니다. 브루에 가서 작업할테니가요. 그냥 따라오세요.

이미지to비디오: https://convert.leiapix.com

 

LeiaPix Converter

LeiaPix Converter LeiaPix Converter shows 3D parallax effect and creates animated GIFs from them. Plus extracts the depth map and enables you to create your own! Unfortunately your browser is not supported. Use something newer, like Chrome for example.

convert.leiapix.com

 

https://convert.leiapix.com/s/00cdcdba-7355-46e1-b9aa-59ccaf989406.png?exportSize=300&storedDate=1679449292530&useOriginalImage=false&version=301&animate=true&animateDuration=6&animatePosition=null&animateScaleX=0&animateScaleY=1&depthFocus=0.5&depthScale=1&fit=contain 

 

LeiaPix Converter

LeiaPix Converter LeiaPix Converter shows 3D parallax effect and creates animated GIFs from them. Plus extracts the depth map and enables you to create your own! Unfortunately your browser is not supported. Use something newer, like Chrome for example.

convert.leiapix.com

사진을 업로드 한 후 좌측 메뉴를 조절하면서 어떤 형태로 만들 것인지를 선택하면 됩니다. 그런 후 하단에 공유버튼을 눌러 저장하면 동영상이 저장됩니다. 저장시 혼동되지 않도록 필자의 경우 앵커이동현_입력, 이동현아바타_입력으로 동영상 파일을 만들었습니다. 이렇게 작업한 후에 다음 순서로 넘어가야 합니다. 

 

5. 브루에 대본 넣어서 음성파일 만들기

대본
인공지능 앵커 이동현

안녕하세요 . 이동현 앵커님입니다,  시인 아바타님 반갑습니다!

최근에 출간된 아바타님의 만남과 이별이라는 시집에서 좋은 시가 있다고 해서 듣고 싶어 초대했습니다
만남과 이별, 그리고 회상이라는 시라고 하든데 준비되었으면 부탁드립니다.
인공지능 시인 아바타
네. 알겠습니다.  그리움.  인공지능 시인 아바타. 만남, 기쁨의 포옹, 이별, 완벽한 은혜의 눈물, 리콜, 메아리가 선명하게 울리고, 그리움, 언제나 가까이 있는 불꽃. 감사합니다. 짧은 시이지만 저의 마음이 담긴 삶의 이야기입니다.

위에서 만든 대본입니다. 

인공지능 앵커 이동현 파일 음성파일과 인공지능 시인 아바타 음성파일을 2개로 만들도록 하겠습니다. 물론 1개로 만들수 있습니다. 브루에서 제공하는 아바타를 이용할 경우에는 가능합니다만 필자는 앞서 이야기한 것처럼 제가 가지고 있는 아바타와 실사사진으로 만들기 위해 따라 음성파일을 만들어 인터뷰 영상을 만들고자 합니다.  이제 녹음을 시작하도록 하겠습니다.

먼저 인공지능 앵커 이동현의 대사를 본사한 후 브루로 가서 음성파일을 만들겠습니다. 새로만들기를 한 후 좌측에 있는 브루라는 이미지를 삭제한 후 우측아래에 있는 ai 목소리로 시작하기를 선택합니다. 

그런 후 아래처럼 브루에 원고내용을 붙여넣기 합니다. 

목소리 설정을 눌러 자신이 원하는 아바타를 선택합니다. 

필자의 경우 남성. 윤성을 선택한 후 우측 하단에 있는 확인을 누릅니다.

대화 내용에 따라 스퀸스 파일들이 만들어졌습니다. 좌측에 있는 검은 화면과 자막은 신경쓰지 않아도 됩니다. 우리는 음성파일만 사용하기 위해서 이 부분은 필요하지 않습니다.  대략적으로 11초정도 만들어 졌습니다. 목소리가 마음에 들지 않는다면 목소리를 수정하시면 되고 내용을 추가하려면 대본에서 수정 및 삭제, 추가하시면 그대로 반영됩니다. 우측 상단에 내보내기를 눌러서 wav 파일로 저장하시면 됩니다. 제가 사용하는 프로그램이 wav만 지원하기 때문에 이렇게 저장했지만 프로그램마다 지원하는 파일속성이 다릅니다. 이점 참고하세요

파일명은 이동현앵커_입력이라고 하겠습니다. 아래는 녹음한 파일입니다. 

이동현앵커_입력.wav
1.52MB
시인아바타_입력.wav
1.65MB

이런 방식으로 시인 아바타도 동일하게 음성파일을 녹음해 주시면 됩니다. 필자는 이동진이름으로 아바타를 선정하여 녹음파일을 만들었습니다.  아래는 아바타의 녹음한 파일입니다. 

 

5. 영상과 오디오의 싱크를 맞추어 주어야 합니다. 

 

아래 사이트로 가서 작업을 시작합니다. 

말하는 영상 제작 사이트 : https://bhaasha.iiit.ac.in/lipsync/

 

Interactive Wav2Lip Demo

In our paper, A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild, ACM Multimedia 2020, we aim to lip-sync unconstrained videos in the wild to any desired target speech. Current works excel at producing accurate lip movements on a st

bhaasha.iiit.ac.in

위의 페이지로 이동합니다. 위의 것은 비디오 파일을 올리는 것이고, 아래는 오디오 파일을 올리는 곳입니다. 보시면 아시겠지만 20초만 가능하다고 되어 있습니다. 그래서 20초이내로 음성파일을 만들었습니다. 이해하시겠죠. 긴 영상은 20초씩 분할하여 만들어 주시면 됩니다. 

아바타시인_입력_exported.mp4
3.73MB
이동현앵커_입력_exported.mp4
3.64MB

 

위의 파일을 넣어서 작업을 했는데 이미지가 제대로 인식되지 않아 파일을 만들지 못했습니다 그렇다고 포기할 수 없죠. 

인공지능을 그려놓았던 그림을 사용하기로 결정하고 다시 도전했습니다.

동일한 방식으로 다시 진행했습니다. 두개의 파일을 만들었습니다. 그리고 위의 웹사이트로 작업을 진행하였습니다

test.mp4
1.65MB
test.wav
1.48MB

그 결과 정상적으로 작동하는 것을 보고 마음이 놓였습니다. 한 번 보시죠

test-synced-Ljabk.mp4
0.69MB

 

 

6. 동영상 화질올리기


화질이 원본사진에 비해 많이 떨어졌죠. 화질을 올릴 수 있습니다. 그런데 비용이 들어갑니다. 아래 웹페이지에 가서 화질을 업할 수 있습니다   

https://www.topazlabs.com

 

Topaz Labs: AI Image Quality Software

Photo and video enhancement software powered by deep learning gets you the best image quality available for noise reduction, sharpening, upscaling, and more.

www.topazlabs.com

 

이상과 같이 사진속에 있는 인물을 아바타로 사용하여 동영상에서 글을 읽어주거나 시를 낭송해 줄 수 있도록 할 수 있습니다 그런데 문제는 화질이 좋지 않다는 점입니다. 이점만 그려한다면 사용할 만하죠. 그리고 번거롭죠. 최소한의 비용으로 아바타로 영상을 만들고 콘텐츠를 제작하려고 하다보니 그렇습니다 그러나 did와 같은 프로그램을 이용할 경우 원고만 있으면 바로 영상을 만들 수 있죠 문제는 비용이겠죠. 선택은 여러분들의 몫입니다.  그럼 오늘도 수고하셨습니다. 다음 시간에 뵙도록 하겠습니다. 감사합니다.