TalkFace

音声で顔画像を動かす：One Shot Talking Face †

　音声と１枚の顔画像を使って、顔画像がまるで話しているような動画を作成する技術「One Shot Talking Face」を検証する

音声で顔画像を動かす：One Shot Talking Face
- サイト『One Shot Talking Face を使って音声で顔画像を動かす』の検証
- 更新履歴
参考資料

※ 最終更新:2023/12/09　

↑

サイト『One Shot Talking Face を使って音声で顔画像を動かす』の検証 †

↑

概要 †

音声と１枚の顔画像を使って、顔画像がまるで話しているような動画を作成する「One Shot Talking Face」を、上記サイトの手順に従って検証してみる。
現在の「Google Colaboratory」環境で動作する。

One Shot Talking Face 概念図

オフィシャルサイト → one-shot-talking-face-colab
論文 → One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning

↑

Google Colaboratory に実行環境を作成 †

上記サイト作者のデモサイトを開き「Open in Colab」① ボタンを押す
『one_shot_talking_face.ipynb』の Google Colab が開くので「ファイル」メニューから「ドライブにコピーを保存」を選択
『one_shot_talking_face.ipynb のコピー』のタイトルで開いた Google Colab のページで以降の操作を行う
データファイルをダウンロードして解凍する（解凍した「update/work/one_shot_talking_face/」を使用する
　update_20231209.zip (115MB) <アップデート・データ>

↑

環境設定 †

以下のセルを実行する ①（実行時間 1分）

#@title #**Setup**
!git lfs install
%cd /content
!git clone https://huggingface.co/camenduru/pocketsphinx-20.04-t4 pocketsphinx
%cd  /content/pocketsphinx
!sudo cmake --build build --target install
%cd /content
!git clone https://huggingface.co/camenduru/one-shot-talking-face-20.04-t4 one-shot-talking-face
%cd /content/one-shot-talking-face
!pip install -r /content/one-shot-talking-face/requirements.txt
!chmod 755 /content/one-shot-talking-face/OpenFace/FeatureExtraction
!mkdir /content/out
!apt install -qq libgtk2.0-0 jq -y
!pip install -q imageio-ffmpeg

▼　- log -　GoogleColab Tesla T4

Git LFS initialized.
/content
Cloning into 'pocketsphinx'...
remote: Enumerating objects: 1658, done.
remote: Total 1658 (delta 0), reused 0 (delta 0), pack-reused 1658
Receiving objects: 100% (1658/1658), 8.51 MiB | 12.00 MiB/s, done.
Resolving deltas: 100% (592/592), done.
/content/pocketsphinx
-- The C compiler identification is GNU 11.4.0
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Check for working C compiler: /usr/bin/cc - skipped
-- Detecting C compile features
-- Detecting C compile features - done
-- SIZEOF_LONG="8" ; SIZEOF_LONG_LONG="8"
-- WORDS_BIGENDIAN="0"
-- SPHINX_DEBUG="" ; DEBUG_ENDIAN=""
-- FIXED_POINT="OFF" ; DEFAULT_RADIX="12"
-- Could NOT find Doxygen (missing: DOXYGEN_EXECUTABLE) 
-- Checking for module 'libpulse-simple'
--   No package 'libpulse-simple' found
-- Checking for module 'portaudio-2.0'
--   No package 'portaudio-2.0' found
-- MODELDIR="/usr/local/share/pocketsphinx/model"
-- Configuring done
-- Generating done
-- Build files have been written to: /content/pocketsphinx/build
make[1]: Entering directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[  0%] Building C object src/CMakeFiles/pocketsphinx.dir/acmod.c.o
[  0%] Building C object src/CMakeFiles/pocketsphinx.dir/allphone_search.c.o
[  2%] Building C object src/CMakeFiles/pocketsphinx.dir/bin_mdef.c.o
[  2%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/vad/vad_gmm.c.o
[  4%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/vad/webrtc_vad.c.o
[  4%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/vad/vad_filterbank.c.o
[  4%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/vad/vad_core.c.o
[  6%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/vad/vad_sp.c.o
[  6%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/division_operations.c.o
[  6%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/resample_48khz.c.o
[  9%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/resample.c.o
[  9%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/resample_fractional.c.o
[ 11%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/downsample_fast.c.o
[ 11%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/min_max_operations.c.o
[ 11%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/cross_correlation.c.o
[ 13%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/vector_scaling_operations.c.o
[ 13%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/resample_by_2_internal.c.o
[ 15%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/energy.c.o
[ 15%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/spl_inl.c.o
[ 15%] Building C object src/CMakeFiles/pocketsphinx.dir/common_audio/signal_processing/get_scaling_square.c.o
[ 18%] Building C object src/CMakeFiles/pocketsphinx.dir/dict2pid.c.o
[ 18%] Building C object src/CMakeFiles/pocketsphinx.dir/dict.c.o
[ 18%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_sigproc.c.o
[ 20%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fixlog.c.o
[ 20%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_warp_inverse_linear.c.o
[ 22%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_noise.c.o
[ 22%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_warp.c.o
[ 22%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_interface.c.o
[ 25%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_warp_affine.c.o
[ 25%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/yin.c.o
[ 27%] Building C object src/CMakeFiles/pocketsphinx.dir/fe/fe_warp_piecewise_linear.c.o
[ 27%] Building C object src/CMakeFiles/pocketsphinx.dir/feat/cmn.c.o
[ 27%] Building C object src/CMakeFiles/pocketsphinx.dir/feat/agc.c.o
[ 29%] Building C object src/CMakeFiles/pocketsphinx.dir/feat/cmn_live.c.o
[ 29%] Building C object src/CMakeFiles/pocketsphinx.dir/feat/feat.c.o
[ 29%] Building C object src/CMakeFiles/pocketsphinx.dir/feat/lda.c.o
[ 31%] Building C object src/CMakeFiles/pocketsphinx.dir/fsg_history.c.o
[ 31%] Building C object src/CMakeFiles/pocketsphinx.dir/fsg_lextree.c.o
[ 34%] Building C object src/CMakeFiles/pocketsphinx.dir/fsg_search.c.o
[ 34%] Building C object src/CMakeFiles/pocketsphinx.dir/hmm.c.o
[ 34%] Building C object src/CMakeFiles/pocketsphinx.dir/kws_detections.c.o
[ 36%] Building C object src/CMakeFiles/pocketsphinx.dir/kws_search.c.o
[ 36%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/lm_trie_quant.c.o
[ 38%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/ngram_model_trie.c.o
[ 38%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/fsg_model.c.o
[ 38%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/jsgf.c.o
[ 40%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/ngram_model_set.c.o
[ 40%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/ngrams_raw.c.o
[ 43%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/jsgf_scanner.c.o
[ 43%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/bitarr.c.o
[ 43%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/ngram_model.c.o
[ 45%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/lm_trie.c.o
[ 45%] Building C object src/CMakeFiles/pocketsphinx.dir/lm/jsgf_parser.c.o
[ 45%] Building C object src/CMakeFiles/pocketsphinx.dir/mdef.c.o
[ 47%] Building C object src/CMakeFiles/pocketsphinx.dir/ms_gauden.c.o
[ 47%] Building C object src/CMakeFiles/pocketsphinx.dir/ms_mgau.c.o
[ 50%] Building C object src/CMakeFiles/pocketsphinx.dir/ms_senone.c.o
[ 50%] Building C object src/CMakeFiles/pocketsphinx.dir/ngram_search.c.o
[ 50%] Building C object src/CMakeFiles/pocketsphinx.dir/ngram_search_fwdflat.c.o
[ 52%] Building C object src/CMakeFiles/pocketsphinx.dir/ngram_search_fwdtree.c.o
[ 52%] Building C object src/CMakeFiles/pocketsphinx.dir/phone_loop_search.c.o
[ 54%] Building C object src/CMakeFiles/pocketsphinx.dir/pocketsphinx.c.o
[ 54%] Building C object src/CMakeFiles/pocketsphinx.dir/ps_alignment.c.o
[ 54%] Building C object src/CMakeFiles/pocketsphinx.dir/ps_config.c.o
[ 56%] Building C object src/CMakeFiles/pocketsphinx.dir/ps_endpointer.c.o
[ 56%] Building C object src/CMakeFiles/pocketsphinx.dir/ps_lattice.c.o
[ 56%] Building C object src/CMakeFiles/pocketsphinx.dir/ps_mllr.c.o
[ 59%] Building C object src/CMakeFiles/pocketsphinx.dir/ps_vad.c.o
[ 59%] Building C object src/CMakeFiles/pocketsphinx.dir/ptm_mgau.c.o
[ 61%] Building C object src/CMakeFiles/pocketsphinx.dir/s2_semi_mgau.c.o
[ 61%] Building C object src/CMakeFiles/pocketsphinx.dir/state_align_search.c.o
[ 61%] Building C object src/CMakeFiles/pocketsphinx.dir/tmat.c.o
[ 63%] Building C object src/CMakeFiles/pocketsphinx.dir/util/strfuncs.c.o
[ 63%] Building C object src/CMakeFiles/pocketsphinx.dir/util/dtoa.c.o
[ 65%] Building C object src/CMakeFiles/pocketsphinx.dir/util/case.c.o
[ 65%] Building C object src/CMakeFiles/pocketsphinx.dir/util/filename.c.o
[ 65%] Building C object src/CMakeFiles/pocketsphinx.dir/util/slamch.c.o
[ 68%] Building C object src/CMakeFiles/pocketsphinx.dir/util/cmd_ln.c.o
[ 68%] Building C object src/CMakeFiles/pocketsphinx.dir/util/blas_lite.c.o
[ 68%] Building C object src/CMakeFiles/pocketsphinx.dir/util/blkarray_list.c.o
[ 70%] Building C object src/CMakeFiles/pocketsphinx.dir/util/vector.c.o
[ 70%] Building C object src/CMakeFiles/pocketsphinx.dir/util/mmio.c.o
[ 72%] Building C object src/CMakeFiles/pocketsphinx.dir/util/hash_table.c.o
[ 72%] Building C object src/CMakeFiles/pocketsphinx.dir/util/err.c.o
[ 72%] Building C object src/CMakeFiles/pocketsphinx.dir/util/ckd_alloc.c.o
[ 75%] Building C object src/CMakeFiles/pocketsphinx.dir/util/slapack_lite.c.o
[ 75%] Building C object src/CMakeFiles/pocketsphinx.dir/util/matrix.c.o
[ 77%] Building C object src/CMakeFiles/pocketsphinx.dir/util/bio.c.o
[ 77%] Building C object src/CMakeFiles/pocketsphinx.dir/util/heap.c.o
[ 77%] Building C object src/CMakeFiles/pocketsphinx.dir/util/priority_queue.c.o
[ 79%] Building C object src/CMakeFiles/pocketsphinx.dir/util/bitvec.c.o
[ 79%] Building C object src/CMakeFiles/pocketsphinx.dir/util/profile.c.o
[ 79%] Building C object src/CMakeFiles/pocketsphinx.dir/util/errno.c.o
[ 81%] Building C object src/CMakeFiles/pocketsphinx.dir/util/logmath.c.o
[ 81%] Building C object src/CMakeFiles/pocketsphinx.dir/util/glist.c.o
[ 84%] Building C object src/CMakeFiles/pocketsphinx.dir/util/f2c_lite.c.o
[ 84%] Building C object src/CMakeFiles/pocketsphinx.dir/util/listelem_alloc.c.o
[ 84%] Building C object src/CMakeFiles/pocketsphinx.dir/util/pio.c.o
[ 86%] Building C object src/CMakeFiles/pocketsphinx.dir/util/genrand.c.o
[ 86%] Building C object src/CMakeFiles/pocketsphinx.dir/util/soundfiles.c.o
[ 88%] Linking C static library ../libpocketsphinx.a
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 88%] Built target pocketsphinx
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[ 88%] Building C object programs/CMakeFiles/pocketsphinx_main.dir/pocketsphinx_main.c.o
[ 88%] Linking C executable ../pocketsphinx
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 88%] Built target pocketsphinx_main
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[ 88%] Building C object programs/CMakeFiles/pocketsphinx_batch.dir/pocketsphinx_batch.c.o
[ 88%] Linking C executable ../pocketsphinx_batch
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 88%] Built target pocketsphinx_batch
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[ 90%] Building C object programs/CMakeFiles/pocketsphinx_mdef_convert.dir/pocketsphinx_mdef_convert.c.o
[ 90%] Linking C executable ../pocketsphinx_mdef_convert
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 90%] Built target pocketsphinx_mdef_convert
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[ 93%] Building C object programs/CMakeFiles/pocketsphinx_jsgf2fsg.dir/pocketsphinx_jsgf2fsg.c.o
[ 93%] Linking C executable ../pocketsphinx_jsgf2fsg
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 93%] Built target pocketsphinx_jsgf2fsg
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[ 95%] Building C object programs/CMakeFiles/pocketsphinx_lm_convert.dir/pocketsphinx_lm_convert.c.o
[ 95%] Linking C executable ../pocketsphinx_lm_convert
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 95%] Built target pocketsphinx_lm_convert
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[ 95%] Building C object programs/CMakeFiles/pocketsphinx_lm_eval.dir/pocketsphinx_lm_eval.c.o
[ 97%] Linking C executable ../pocketsphinx_lm_eval
make[2]: Leaving directory '/content/pocketsphinx/build'
[ 97%] Built target pocketsphinx_lm_eval
make[2]: Entering directory '/content/pocketsphinx/build'
make[2]: Leaving directory '/content/pocketsphinx/build'
make[2]: Entering directory '/content/pocketsphinx/build'
[100%] Building C object programs/CMakeFiles/pocketsphinx_pitch.dir/pocketsphinx_pitch.c.o
[100%] Linking C executable ../pocketsphinx_pitch
make[2]: Leaving directory '/content/pocketsphinx/build'
[100%] Built target pocketsphinx_pitch
make[1]: Leaving directory '/content/pocketsphinx/build'
Install the project...
-- Install configuration: ""
-- Installing: /usr/local/share/pocketsphinx/model/en-us
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us-phone.lm.bin
-- Installing: /usr/local/share/pocketsphinx/model/en-us/cmudict-en-us.dict
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us.lm.bin
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/variances
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/README
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/means
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/mdef
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/noisedict
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/transition_matrices
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/sendump
-- Installing: /usr/local/share/pocketsphinx/model/en-us/en-us/feat.params
-- Installing: /usr/local/share/man/man1/pocketsphinx.1
-- Installing: /usr/local/share/man/man1/pocketsphinx_batch.1
-- Installing: /usr/local/share/man/man1/pocketsphinx_mdef_convert.1
-- Installing: /usr/local/share/man/man1/sphinx_lm_convert.1
-- Installing: /usr/local/share/man/man1/sphinx_lm_eval.1
-- Installing: /usr/local/share/man/man1/sphinx_lm_sort.1
-- Installing: /usr/local/share/man/man1/sphinx_pitch.1
-- Installing: /usr/local/bin/pocketsphinx
-- Installing: /usr/local/bin/pocketsphinx_batch
-- Installing: /usr/local/bin/pocketsphinx_mdef_convert
-- Installing: /usr/local/bin/pocketsphinx_jsgf2fsg
-- Installing: /usr/local/bin/pocketsphinx_lm_convert
-- Installing: /usr/local/bin/pocketsphinx_lm_eval
-- Installing: /usr/local/bin/pocketsphinx_pitch
-- Installing: /usr/local/lib/libpocketsphinx.a
-- Installing: /usr/local/include/include
-- Installing: /usr/local/include/include/pocketsphinx.h
-- Installing: /usr/local/include/include/pocketsphinx
-- Installing: /usr/local/include/include/pocketsphinx/model.h
-- Installing: /usr/local/include/include/pocketsphinx/lattice.h
-- Installing: /usr/local/include/include/pocketsphinx/err.h
-- Installing: /usr/local/include/include/pocketsphinx/prim_type.h
-- Installing: /usr/local/include/include/pocketsphinx/export.h
-- Installing: /usr/local/include/include/pocketsphinx/alignment.h
-- Installing: /usr/local/include/include/pocketsphinx/vad.h
-- Installing: /usr/local/include/include/pocketsphinx/logmath.h
-- Installing: /usr/local/include/include/pocketsphinx/endpointer.h
-- Installing: /usr/local/include/include/pocketsphinx/mllr.h
-- Installing: /usr/local/include/include/pocketsphinx/search.h
-- Up-to-date: /usr/local/include/include
-- Up-to-date: /usr/local/include/include/pocketsphinx
-- Installing: /usr/local/include/include/pocketsphinx/sphinx_config.h
-- Installing: /usr/local/lib/pkgconfig/pocketsphinx.pc
/content
Cloning into 'one-shot-talking-face'...
remote: Enumerating objects: 315, done.
remote: Total 315 (delta 0), reused 0 (delta 0), pack-reused 315
Receiving objects: 100% (315/315), 13.25 MiB | 17.78 MiB/s, done.
Resolving deltas: 100% (66/66), done.
Filtering content: 100% (27/27), 1.22 GiB | 79.44 MiB/s, done.
/content/one-shot-talking-face
Requirement already satisfied: scikit-image in /usr/local/lib/python3.10/dist-packages (from -r /content/one-shot-talking-face/requirements.txt (line 1)) (0.19.3)
Collecting python_speech_features (from -r /content/one-shot-talking-face/requirements.txt (line 2))
  Downloading python_speech_features-0.6.tar.gz (5.6 kB)
  Preparing metadata (setup.py) ... done
Collecting pyworld (from -r /content/one-shot-talking-face/requirements.txt (line 3))
  Downloading pyworld-0.3.4.tar.gz (251 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 252.0/252.0 kB 6.1 MB/s eta 0:00:00
  Installing build dependencies ... done
  Getting requirements to build wheel ... done
  Preparing metadata (pyproject.toml) ... done
Requirement already satisfied: pyyaml in /usr/local/lib/python3.10/dist-packages (from -r /content/one-shot-talking-face/requirements.txt (line 4)) (6.0.1)
Requirement already satisfied: imageio in /usr/local/lib/python3.10/dist-packages (from -r /content/one-shot-talking-face/requirements.txt (line 5)) (2.31.6)
Requirement already satisfied: scipy in /usr/local/lib/python3.10/dist-packages (from -r /content/one-shot-talking-face/requirements.txt (line 6)) (1.11.3)
Requirement already satisfied: opencv-python in /usr/local/lib/python3.10/dist-packages (from -r /content/one-shot-talking-face/requirements.txt (line 8)) (4.8.0.76)
Requirement already satisfied: numpy>=1.17.0 in /usr/local/lib/python3.10/dist-packages (from scikit-image->-r /content/one-shot-talking-face/requirements.txt (line 1)) (1.23.5)
Requirement already satisfied: networkx>=2.2 in /usr/local/lib/python3.10/dist-packages (from scikit-image->-r /content/one-shot-talking-face/requirements.txt (line 1)) (3.2.1)
Requirement already satisfied: pillow!=7.1.0,!=7.1.1,!=8.3.0,>=6.1.0 in /usr/local/lib/python3.10/dist-packages (from scikit-image->-r /content/one-shot-talking-face/requirements.txt (line 1)) (9.4.0)
Requirement already satisfied: tifffile>=2019.7.26 in /usr/local/lib/python3.10/dist-packages (from scikit-image->-r /content/one-shot-talking-face/requirements.txt (line 1)) (2023.9.26)
Requirement already satisfied: PyWavelets>=1.1.1 in /usr/local/lib/python3.10/dist-packages (from scikit-image->-r /content/one-shot-talking-face/requirements.txt (line 1)) (1.4.1)
Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from scikit-image->-r /content/one-shot-talking-face/requirements.txt (line 1)) (23.2)
Requirement already satisfied: cython>=0.24 in /usr/local/lib/python3.10/dist-packages (from pyworld->-r /content/one-shot-talking-face/requirements.txt (line 3)) (3.0.5)
Building wheels for collected packages: python_speech_features, pyworld
  Building wheel for python_speech_features (setup.py) ... done
  Created wheel for python_speech_features: filename=python_speech_features-0.6-py3-none-any.whl size=5872 sha256=4abcd1aa2a1440881dbcae61848d5c1c32a9a1f3e78167f6194f7596891e5b26
  Stored in directory: /root/.cache/pip/wheels/5a/9e/68/30bad9462b3926c29e315df16b562216d12bdc215f4d240294
  Building wheel for pyworld (pyproject.toml) ... done
  Created wheel for pyworld: filename=pyworld-0.3.4-cp310-cp310-linux_x86_64.whl size=865154 sha256=f1200fea34c534a97f2b9aae84b65f125e9dbcad4d8f1b9b6d8873dd37c491b0
  Stored in directory: /root/.cache/pip/wheels/66/09/8a/a1d79b73d59756f66e9bfe55a199840efc7473adb76ddacdfd
Successfully built python_speech_features pyworld
Installing collected packages: python_speech_features, pyworld
Successfully installed python_speech_features-0.6 pyworld-0.3.4
The following additional packages will be installed:
  libgail-common libgail18 libgtk2.0-bin libgtk2.0-common libjq1 libonig5 librsvg2-common
Suggested packages:
  gvfs
The following NEW packages will be installed:
  jq libgail-common libgail18 libgtk2.0-0 libgtk2.0-bin libgtk2.0-common libjq1 libonig5
  librsvg2-common
0 upgraded, 9 newly installed, 0 to remove and 9 not upgraded.
Need to get 2,692 kB of archives.
After this operation, 8,315 kB of additional disk space will be used.
Selecting previously unselected package libonig5:amd64.
(Reading database ... 120880 files and directories currently installed.)
Preparing to unpack .../0-libonig5_6.9.7.1-2build1_amd64.deb ...
Unpacking libonig5:amd64 (6.9.7.1-2build1) ...
Selecting previously unselected package libjq1:amd64.
Preparing to unpack .../1-libjq1_1.6-2.1ubuntu3_amd64.deb ...
Unpacking libjq1:amd64 (1.6-2.1ubuntu3) ...
Selecting previously unselected package jq.
Preparing to unpack .../2-jq_1.6-2.1ubuntu3_amd64.deb ...
Unpacking jq (1.6-2.1ubuntu3) ...
Selecting previously unselected package libgtk2.0-common.
Preparing to unpack .../3-libgtk2.0-common_2.24.33-2ubuntu2_all.deb ...
Unpacking libgtk2.0-common (2.24.33-2ubuntu2) ...
Selecting previously unselected package libgtk2.0-0:amd64.
Preparing to unpack .../4-libgtk2.0-0_2.24.33-2ubuntu2_amd64.deb ...
Unpacking libgtk2.0-0:amd64 (2.24.33-2ubuntu2) ...
Selecting previously unselected package libgail18:amd64.
Preparing to unpack .../5-libgail18_2.24.33-2ubuntu2_amd64.deb ...
Unpacking libgail18:amd64 (2.24.33-2ubuntu2) ...
Selecting previously unselected package libgail-common:amd64.
Preparing to unpack .../6-libgail-common_2.24.33-2ubuntu2_amd64.deb ...
Unpacking libgail-common:amd64 (2.24.33-2ubuntu2) ...
Selecting previously unselected package libgtk2.0-bin.
Preparing to unpack .../7-libgtk2.0-bin_2.24.33-2ubuntu2_amd64.deb ...
Unpacking libgtk2.0-bin (2.24.33-2ubuntu2) ...
Selecting previously unselected package librsvg2-common:amd64.
Preparing to unpack .../8-librsvg2-common_2.52.5+dfsg-3ubuntu0.2_amd64.deb ...
Unpacking librsvg2-common:amd64 (2.52.5+dfsg-3ubuntu0.2) ...
Setting up librsvg2-common:amd64 (2.52.5+dfsg-3ubuntu0.2) ...
Setting up libgtk2.0-common (2.24.33-2ubuntu2) ...
Setting up libonig5:amd64 (6.9.7.1-2build1) ...
Setting up libjq1:amd64 (1.6-2.1ubuntu3) ...
Setting up libgtk2.0-0:amd64 (2.24.33-2ubuntu2) ...
Setting up libgail18:amd64 (2.24.33-2ubuntu2) ...
Setting up libgtk2.0-bin (2.24.33-2ubuntu2) ...
Setting up jq (1.6-2.1ubuntu3) ...
Setting up libgail-common:amd64 (2.24.33-2ubuntu2) ...
Processing triggers for man-db (2.10.2-1) ...
Processing triggers for libgdk-pixbuf-2.0-0:amd64 (2.42.8+dfsg-1ubuntu0.2) ...
Processing triggers for libc-bin (2.35-0ubuntu3.4) ...
/sbin/ldconfig.real: /usr/local/lib/libtbbmalloc_proxy.so.2 is not a symbolic link

/sbin/ldconfig.real: /usr/local/lib/libtbbmalloc.so.2 is not a symbolic link

/sbin/ldconfig.real: /usr/local/lib/libtbb.so.12 is not a symbolic link

/sbin/ldconfig.real: /usr/local/lib/libtbbbind.so.3 is not a symbolic link

/sbin/ldconfig.real: /usr/local/lib/libtbbbind_2_5.so.3 is not a symbolic link

/sbin/ldconfig.real: /usr/local/lib/libtbbbind_2_0.so.3 is not a symbolic link

セルの実行終了② 後、左サイドバーの「ファイルボタン」を押す
「one-shot-talking-face」③ の下に「sample」」④ フォルダがあることを確認する

↑

動画の生成 †

動画の生成
・用意した画像を使用する場合は、「one-shot-talking-face/samples/imgs」フォルダへ、
　音声ファイルは「one-shot-talking-face/samples/audios」フォルダへアップロードする
・画像ファイル（image_file_name）/ 音声ファイル（wav_file_name）を指定する

・以下のセルを実行する（実行時間 2分）

#@title #**make movie**
import os, random, torchaudio
from IPython.display import HTML
from base64 import b64encode
from IPython.display import clear_output

def show_video(video_path, video_width = 256):
  video_file = open(video_path, "r+b").read()
  video_url = f"data:video/mp4;base64,{b64encode(video_file).decode()}"
  return HTML(f"""<video width={video_width} controls><source src="{video_url}"></video>""")

#@markdown -Select wav_file_name from the one-shot-talking-face/samples/audios folder.\
#@markdown -Select image_file_name from the one-shot-talking-face/samples/imgs folder.

wav_file_name = 'obama2.wav' #@param {type:"string"}
image_file_name = 'd5.jpg' #@param {type:"string"}

wav_file = "/content/one-shot-talking-face/samples/audios/" + wav_file_name
image_file = "/content/one-shot-talking-face/samples/imgs/" + image_file_name

waveform, sample_rate = torchaudio.load(wav_file)
torchaudio.save(wav_file, waveform, sample_rate, encoding="PCM_S", bits_per_sample=16)

os.environ['wav_file'] = wav_file
os.environ['image_file'] = image_file
random_int = str(random.randint(1, 1000000))

!mkdir /content/train
!cp $wav_file /content/train/audio.wav
!cp $image_file /content/train/image.png

!pocketsphinx -phone_align yes single /content/train/audio.wav $text | jq '[.w[]|{word: (.t | ascii_upcase | sub("<S>"; "sil") | sub("<SIL>"; "sil") | sub("\\(2\\)"; "") | sub("\\(3\\)"; "") | sub("\\(4\\)"; "") | sub("\\[SPEECH\\]"; "SIL") | sub("\\[NOISE\\]"; "SIL")), phones: [.w[]|{ph: .t | sub("\\+SPN\\+"; "SIL") | sub("\\+NSN\\+"; "SIL"), bg: (.b*100)|floor, ed: (.b*100+.d*100)|floor}]}]' > /content/test.json
%cd /content/one-shot-talking-face
!python -B test_script.py --img_path /content/train/image.png --audio_path /content/train/audio.wav --phoneme_path /content/test.json --save_dir /content/train

os.environ['ran_num'] = random_int
!cp /content/train/image_audio.mp4 "/content/out/${ran_num}.mp4"

clear_output()

show_video(f"/content/out/{random_int}.mp4")

動画のダウンロード
・以下のセルを実行する（実行時間数秒）

#@title #**Download movie** ( for google chrome)
from google.colab import files
file_path =f"/content/out/{random_int}.mp4"
files.download(file_path)

↑

別の動画の生成 †

「動画の生成」以降を繰り返せば別の動画の生成ができる
実行例 1（tf_03_256.mp4 / tf_21_256.mp4 / tf_27_256.mp4 / izutsu_m2.mp4 : obama2.wav）
実行例 2（okegawa_m1.mp4 / yaoi_m1.mp4 / nitta_m2.mp4 / izutsu_m2.mp4 : obama2.wav）

↑

編集の終了・再接続後の実行 †

編集を終えるときは Colab「ランタイム」→「ランタイムを接続解除して削除」を選択する
・GPU 占有時間を少なくするためすべての実行作業が終了した場合は接続解除しておくことが望ましい
・接続解除して削除を実行しても、ノートブック上の実行結果はそのまま残る
再接続の場合は上記の環境設定からもう一度実行同じ手順をする

↑

更新履歴 †

2023/11/20 初版

↑

参考資料 †

One Shot Talking Face
- One Shot Talking Face を使って音声で顔画像を動かす
- GitHub - one-shot-talking-face-colab

その他

最新の20件