딥러닝 AI가 노래 부르게 해보자. NEUTRINO

Music

by UTANXT 2021. 1. 3. 17:13

2020년 3월 29일 첫 영상을 기점으로 해서 운영하고 있는 유튜브 채널이 있다.

노래 부르는게 꽤 자연스럽다. 중요한건 사람이 부르는게 아니라 딥러닝 AI가 부른다는 점이다. 위 채널은 내가 게이밍 활동과 노래 활동을 병행하여 운영하는 채널이다. (채널에 AI~라고 올라간건 모두 이 프로그램을 사용했다) 이번 글에서는 위 AI를 사용하여 노래부르게 하는 방법을 적어볼 것이다.

우선 준비물이 있다. 적당한 컴퓨터(그래픽카드가 좋을수록 작업시간이 빨라짐), Notepad++, NEUTRINO, MUSESCORE, 히라가나 읽는 능력(일본 프로그램이므로 히라가나만 읽음)이 필수적으로 필요하다. 영상을 제작하려면 본인이 사용할 영상편집 프로그램과 Cakewalk같은 DAW도 다룰줄 알면 좋다. 다운로드 링크부터 아래 적어보겠다.

Notepad++ notepad-plus-plus.org/downloads/

Downloads | Notepad++

notepad-plus-plus.org

NEUTRINO n3utrino.work/

NEUTRINO -Neural singing synthesizer

NEUTRINOはニューラルネットワークを用いた歌声シンセサイザーです。歌詞とメロディーを入力するだけで、簡単に歌わせることができ、本人の声質だけではなく癖・歌いまわしなども再現し

n3utrino.work

MUSESCORE musescore.org/ko/download

Download

Create, play and print beautiful sheet music with the world's most popular notation software

musescore.org

자 필수적인 프로그램은 이 정도이다. 우선 NEUTRINO에 대한 간단한 소개를 해보도록 하겠다.

NEUTRINO는 신경망을 이용한 가성 신디사이저로 실제로 가수가 노래를 부른 데이터에서 특징을 추려 가사와 멜로디 입력만으로 간단히 노래를 부르게 만들 수 있는 혁신적인 프로그램이다. 기존에 보컬로이드나 보이스로이드라고 불리는 프로그램보다 압도적으로 간단하며 가격도 무료라 일제라는 단점만 빼면 접근성도 좋다. 라이브러리는 2개에서 현재 4개로 늘어났다. 그럼 지금부터 프로그램을 사용하는 방법을 간단히 안내하겠다.

우선 MUSESCORE를 열어준다.

새 악보 만들기 클릭

제목, 작곡가 등등을 작성

음자리표 설정하고

조표도 설정하고

박자랑 마디도 설정하는데 여기서 중요한 점은 빠르기를 안 맞추면 커버할 노래에 속도가 맞지 않아 고생을 할 수 있다는 점이다.

그럼 이런식으로 오선 악보가 생성이 되는데

이런식으로 음표를 찍어서 히라가나를 붙이면 그대로 불러준다. 일본어를 입력하는 방법은 (hagsig.tistory.com/9)을 참고 바란다. 악보에 히라가나를 붙이는 방법은 음표 하나를 클릭하고 Ctrl+L을 누르면 되고, 다음 음표로 넘어갈 때는 Alt+방향키를 이용하여 빠른 작업을 할 수 있다. 악보가 완성되면

좌측 상단의 파일을 눌러서 내보내기를 누르고

NEUTRINO가 다운로드 되어 있는 위치에 \NEUTRINO\score\musicxml 경로를 찾아서 musicxml 파일로 내보내 주면 악보작업은 끝난다. 여기서부터는 다운로드한 NEUTRINO에서 작업을 진행한다.

Run 파일을 우클릭해서 Notepad++로 열어준다.

그러면 이런식으로 화면이 나오는데 아는 부분만 설명해 보겠다.

BASENAME은 아까 넣은 악보의 파일명

NumThreads는 사용하는 CPU나 GPU의 사용할 쓰레드의 개수 (GPU가 작업 속도가 압도적으로 빠르다)

ModelDir은 사용할 라이브러리의 이름 (NEUTRINO 폴더안에서 model 폴더안에 있는 라이브러리)

Pitch Shift는 노래의 음고 조절

Formant Shift는 노래의 음색 조절 (개발자에 따르면 0.85-1.15 정도가 좋다)

저런 부분들을 건드린 다음 RUN을 실행하여 주면 output에 악보파일과 동일한 파일명의 오디오 파일이 몇 개 생긴다.

들어보고 원하는 파일만 빼서 사용하면 된다. 중요한 정보가 하나 있으니 그걸 적고 피드백을 써 보겠다.

아래는 README에서 일본어 일부를 번역했다. 나는 아래 작업을 하지 않아서 멍청하게 한동안 CPU로 음성합성을 진행하였으니 어지간 하면 그래픽카드 드라이버를 최신형으로 맞추자.

Windows판의 일부 기능(GPU에 의한 고속 렌더링, NSF에 의한 합성)을 이용하시려면【NVIDIA제의 GPU(3 GB이상의 GPU 메모리를 추천】가 필요합니다.
이용하시기 전에 NVIDIA 드라이버를 최신형으로 업데이트 하여 주시기 바랍니다.
※참고: 업데이트 방법
https://volx.jp/geforce-driver-update

FEEDBACK : 히라가나로 일본 노래를 부르게 하는건 그닥 어려운 작업이 아니었다. 그런데 한국 노래도 부르게 하면서 작업이 골치 아파졌다. 어떻게 발음해야 원래 한국어 발음에 더 가깝게 노래부르게 할 수 있을까가 관건이었고 꽤나 시간이 걸리는 힘든 작업이었다. 그러나 유튜브에 영상을 올려 원작자와 소통하고 다른 여러 사람과 함께 의견을 나누는건 보람차고 만족스러웠다. 유튜브 활동을 열심히 할테니 봐 주고 앞으로의 행보를 기대해주면 고맙겠다. 한국 노래를 부르게 한 두가지 예시를 올려보고 마무리짓겠다.