투잡부엉

마이크로소프트 발리(MS VALL-E) 3초 샘플 음성으로 화자의 감정까지 복제하는 음성 생성 인공지능 AI

투잡부엉 2023. 6. 25. 08:00
반응형

투잡부엉
투잡부엉
마이크로소프트 발리(MS VALL-E) 3초 샘플 음성으로 화자의 감정까지 복제하는 음성 생성 인공지능 AI

 

 

1. 인공지능 AI의 한계는?

 

안녕하십니까?

투잡부엉입니다.

 

처음 제목으로

아실 수 있듯이

오늘은 AI 관련

글을

작성하고자

합니다.

 

 

 

최근

 

OpenAI - ChatGPT
OpenAI - DALL-E
Google - BARD

 

위와 같이

인공지능 AI의

동향에 대해서

많은 글이 작성

하였습니다.

 

최근에

사회적 이슈가 되었던

인공지능 챗봇

 

우리가

원하는 질문을

단 몇 초 만에

 

정리를 해서

답변을 주죠

 

그리고

인공지능 이미지 생성 AI

 

우리가 원하는

이미지의

설명을 하면

 

그에 맞는 이미지를

AI가 그려줍니다.

 

 

이처럼

우리 인공지능 AI의

발전은

 

예전부터 지속

개발되었으나

 

최근에 들어서야

 

급속도로

가시화가 되고,

 

가시화가 되기

시작하면서

긍정적 영향에

대한 부분을 수용하면서,

 

그에 따르는

부정적 영향에 대한

대비도 하고 있는

상황입니다.

 

인공지능 AI

앞으로 우리의 삶을

얼마나

편리하게 해 줄 것인지

 

인공지능 AI

개발로 인한

어떠한

 

사회 부정적인

부분이 이슈화가

될지

조금 더 지켜보아야

할 것 같습니다.

 

 

오늘은

 

기존의

인공지능과 조금

색다른 기능의

AI를

소개해 드리고자

합니다.

 

 

바로

 

마이크로소프트사에서

개발하고

공개한

 

3초의 샘플 음성 파일로
화자의 감정, 특징과
음향 환경 등을 복제하여

새로운 음성 파일을
인공지능 AI로 합성하는

MICROSOFT VALL-E

 

VALL-E에

대해서

조금

알아보고자 합니다.

 

아직

실제 공개된

버전은 아니지만

 

이슈화가 되고 있고

가시화된 성능이

사이트에 소개도 되고 있어

 

근시일 내

공개가 될 예정입니다.

 

그럼

 

음성생성 인공지능 AI

VALL-E

 

알아보도록

하겠습니다.

 

 

 

 

2. 음성생성 인공지능 AI VALL-E의 특징

 

먼저

Microsoft에서

소개하는 VALL-E의

내용을

간단하게

알아보도록 하겠습니다.

 

 

VALL-E

VALL-E Token It will be used in a mobile web application that supports Microsoft Valll-e technology . Invest now by BNB or ETH

vall-e.io

마이크로소프트 발리(MS VALL-E)의 특징
마이크로소프트 발리(MS VALL-E)의 특징

 

MS 발리(VALL-E)는

제목에서

소개된 바와 같이

 

음성 샘플을 가지고

개인화된 음성을

합성할 수 있습니다.

 

문맥 학습 기능을

가지고 있으며,

 

3초 분량의

녹음만으로도

 

고품질의 개인화된

음성을 합성합니다.

 

마이크로소프트 발리(MS VALL-E)의 특징
마이크로소프트 발리(MS VALL-E)의 특징

MS 발리(VALL-E)는

이전 MODEL과 달리

화자의 감정과

음향을 보존

할 수 있다는 것을

발견하고,

 

MS 발리(VALL-E)는

GPT-3과 같은

다른 생성 AI 모델과 결합된

 

음성편집, 콘텐츠 생성 등

다양한 음성 합성

애플리케이션을

직접 가능하게 합니다.

 

 

마이크로소프트 발리(MS VALL-E)의 윤리강령
마이크로소프트 발리(MS VALL-E)의 윤리강령

다만 MS 발리(VALL-E)는

화자의

신원을 유지하는 음성을

합성할 수 있기

때문에

 

잠재적 위험을

수반할 수 있습니다.

 

따라서

실제

모델이

실제 환경에서

보이지 않는

 

화자로

일반화될 경우는

화자가 그들의 음성

사용을 승인하

프로토콜과

합성 음성 감지

모델을

포함해야 합니다.

 

 

앞서 설명드린

인공지능 AI의

부정적인 측면이라

생각하시면

될 것 같습니다.

 

아직 공개되지

않는 부분이

 

이러한

부정적

걱정 부분을

어떻게

해소하고

 

인간에게

공개될 지에

대한 걱정을

하고 있다고

생각하시면 될 것

같습니다.

 

저도

좀 더 지켜봐야

할 것 같습니다.

 

 

 

3. 마이크로소프트 발리(MS VALL-E) 개발 현황과 목표

 

 

마이크로소프트 발리(MS VALL-E) 개발 현황과 목표
마이크로소프트 발리(MS VALL-E) 개발 현황과 목표


2023 JAN


 

과학 연구 결과 Study 및

애플리케이션과 웹사이트를

구축하기 위한 인프라 작업

 


2023 MAY


현재의 단계로

볼 수 있습니다.

 

애플리케이션과

웹사이트에서

사용될 통화를 생성하고,

예약 판매용 제공하여

 

프로젝트에 대한

사람들의 관심 정도를

파악하고 있습니다.

 


2023 JUN


 

소셜미디어에서

프로젝트의 좋은

평판을 구축하고

서비스를 제공합니다.

 


2023 AUG


여기서

끝이 아니고

 

모바일 애플리케이션

구축 및 메타버스

세계에도 기술 적용을

한다고 합니다.

 


2023 NOV


사용자의

피드백을

받고

 

발리 모델을

지속적으로

 

개선 및 업데이트를 하며

 

성장 및 확장을

하겠다는 목표를

가지고 있습니다.

 

 

 

 

4. 음성생성 인공지능 AI VALL-E(X)

 

 

VALL-E (X)

VALL-E is a neural codec language model using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather. VALL-E emerges in-context learning capabilities and can be used to synthesiz

www.microsoft.com

 

 

마이크로소프트 발리 MS VALL-E(X)
마이크로소프트 발리 MS VALL-E(X)

 

마이크로소프트 발리 MS VALL-E(X)
마이크로소프트 발리 MS VALL-E(X)

 

음성생성 인공지능 AI VALL-E(X)의

설명입니다.

 

내용은 VALL-E와

유사하며,

 

강력한 학습기능과

보이지 않는 화자 목소리,

감정 및 음향 환경을

보존하면서

 

단 한 번의

음성을 통해

 

고품질의 음성을

생성할 수 있는 것을

보여 줍니다.

 

마이크로소프트 발리 MS VALL-E SAMPLE
마이크로소프트 발리 MS VALL-E SAMPLE

위와 같이

해당 설명

사이트에 가시면

 

실제로

음성생성 인공지능 AI VALL-E로

생성된

 

음성 파일을

들으 실 수 있습니다.

 

 

 

5. MS VALL-E 기대효과

 

여기까지가

제가 준비한 자료가

모두입니다.

 

간단하게

3초 음성으로

그 음성의 목소리를

복제해서

 

다른 음성의 파일을

만든다

이렇게 보시면

됩니다.

 

얼마 전에

라디오에서

 

ChatGPT가

라디오 DJ가

되어서

 

청취자와

소통하면서

1회성으로

프로그램을 진행한

것을 기사를 통해

보았습니다.

 

이처럼

발리의 경우도

ChatGPT와

결합을 하게 되면

 

사람이 듣기 좋아하는

사람의 목소리를 복제해서

 

원고를 자동으로

읽고

음성파일을 생성하고

 

청취자와

이야기하면서

소통하는

인공지능 AI DJ가

활동하는

날이

머지않아 오지 않을까

생각합니다.

 

물론

앞서

걱정한 바와 같이

 

부정적인

용도로

활용하고

악용하는

부분에 대한

준비와 대비는

 

반드시

확실하게

해야겠습니다.

 

오늘도

행복한

하루 보내세요.

 

728x90
반응형