バイノーラル台本の書き方決定版・極！-台本応用編-

2022年7月18日2024年3月17日

バイノーラル作品の台本って難しいよね

ということで、もともと同人音声.com には台本書き方記事はあったのですが、バイノーラル台本の書き方については詳しく解説をしていませんでした。
KU100でゴリゴリ収録をする演者目線から見たなぜそのやり方を推奨するのかの理由まできっちり説明しますので、ライターさんのお役にきっと立てると思います！

直感的には分からない音響関係の専門用語はなるべく使わずに、中X生でもわかるようなワードで説明していきます。（でもR-18なので中X生は見ちゃ駄目だよ！）

それではいきましょ〜！

<お知らせ1>
台本完成後、見積もり対象外となる演技指示/SEなどの表記を簡単に抜けるツールができました！
この記事の台本見本と同じ形式であれば、追加設定なくワンクリックで抜き出しをすることができます。
【無料】見積もりに必要な台本文字数を計算するツール（台本文字数一発抜いてけ君）

<お知らせ2>
本記事は、少しの修正で各声優様のルールに対応できる汎用的な基本形式(1人用)を目指したものです。
より具体的な例を知りたい方は、「よりシンプルに！よいクオリティを！」のコンセプトのもと創られた以下の形式をご参照ください。
台本ガイドライン詳細版 for 兎月りりむ。＠最新版
※2人作品Verはこちらにあります。
>> Xで2人作品VerをXでポストしてみたらめちゃくちゃ評判良かった….!!!
>> 大手サークルさんも含めて実は使ってる人が凄く多い!!!!
>> 現役の同人声優さんたちからも「助かる!!」って声もらってます!!!

台本の基本がわからない！という方は、まずは基本編からお読みください！

思った通りの音声が得られる台本の書き方とは？-台本基本編-

バイノーラルマイクってそもそも何ぞ？

地上波ニュース番組のアナウンサーのナレーションを「２Dの音」とするのであれば、
バイノーラルマイクで収録される音は「３Dの音」です。
映画館で映画を見ると、音が四方八方から聞こえてきますよね。最近ではスピーカーバーなるものにテレビをつなげば映画館的な音の聴こえ方ができるようにもなってきました。

平たく言うとあれに近い音作りをできると考えてください。
バイノーラルマイクのすごいところは、そういった位置感を難しい編集なしに実現できるという点です。
通常、音に位置感をもたらすためには、専用のソフトで編集をかけなければいけません。
（モノラルデータを擬似的にバイノーラル的な音にすることも可能ですが、バイノーラルマイクで収録した音と比べると、やはり位置感は損なわれるものです。）

人間の音の認知について知っておこう

バイノーラル作品を扱うにあたって、人間がそもそもどういう風に音を認知しているかを知る必要がやはりあると感じています。
結論から言ってしまうと、人間は、前方、左右の音の認知が得意です。
一方で、左右の認知力と比べると上下、後方の音の認知は苦手とされています。
これは耳の構造的に必然の結果です。

「でも、現実世界で生きている時には、どこから音が鳴っているのか分かるよ？」
いい点に気付きましたね。
そうです、そうはいっても現実世界で上下や後方の音を、上下や後方から発生している音だと認知できている時ってありますよね。

苦手なはずなのに、何故わかるのでしょうか。
理由はいくつかあります。
１つは、空間の前提条件を把握しているから
２つは、音の方向を探るために頭を傾けて耳の方向を無意識に変えるから
つまり、人間は音の発生源の位置を認知するにあたって、聴覚の力のみに頼っているわけではないということです。
具体的に説明します。

１つ目の理由について。
例えば、寝ている時。
寝ている時は、地べたに寝そべっているわけですから、頭の下から声をかけられるということは絶対にないですよね。声をかけられる時は必ず、顔の上か左右のはずです。
ですから、認知が苦手なはずの上から声をかけられても、上から声をかけられたと認知できるわけです。
下から声がかかるわけがないと無意識のうちに自覚しているために認知できたのです。

小銭がチャリリイインと鳴るのは地面、鳥が鳴くのはたいてい上、猫が鳴くのはたいてい下、包丁がトントンするキッチンの位置はここ、クローゼットの中に人間は通常いないから音が出ないはず、等、、、。
人間というのは常に無意識下の予測を持って認知を行なっています。
そして、耳の認知力の弱さを補うために、視力、触覚の認知を使うわけです。

２つ目の理由について。
例えばスマートフォンを探そうとする時。
スマホ自身から音を鳴らせる機能がありますよね。
でも、場合によっては、スマホから音を鳴らしても、一発でその在処を特定できないときがあると思います。
そういうときって、あたりを見回しませんか？
これってつまり、言い換えると、耳というアンテナの方向を変えているということです。
向いた方向から音がよくキャッチできると認知できたそのとき、はじめて、
「ああ、こっちから音が鳴っていたんだ」と認知に至るわけです。

だから、苦手なはずの上下や後の音でさえも、認知できたと思い込む時があるわけですね。
実際には視聴する際のコンディションを変えているので、上下や後ろからの音を認知するのが苦手であることには変わりないと言うわけです。

そして、音声作品の場合は、五感のうち聴覚しか使うことができません。
現実世界で受ける刺激（風の圧であったり、何かが触れる刺激であったり）は再現することができません。
こういった制約があるということを頭に置いて、バイノーラル作品は制作をすすめていく必要があると思います。

つまり、より没入感のあるバイノーラル作品に仕上げたければ、位置感を認知させるための情報（台詞、SE、イラスト、動画など）を盛り込んでやると良いというわけです。
その場所の情景を目を閉じていても想像させられるようにできればよいのです。イマジネーションのちから！
ただし、これはとても手間がかかるうえ、難易度も高いです。
そこで、バイノーラル初心者編集者さんにオススメなのは、左右から語りかける系です。
耳への密着度高めで収録してもらって、仕上げていきます。
人間は左右の認知はとても得意なので、手っ取り早く情景の認知ができ、没入感に浸ってもらいやすいというのがその理由です。

バイノーラルマイクの得意不得意を知ろう

次に、バイノーラルマイクについての特性をお話します。
一言にバイノーラルマイクと言っても、イヤホン型、ダミーヘッド型、HATS型など様々な種類があるのですが、今回は音声作品制作でよく使われるのがKU100(約100万円)なので、ダミーヘッド型に基づいたお話をします。

KU100は人間の頭を模した模型をマイクにとりつけてあります。
ですから原則、前方、左右の位置感の表現は得意です。
後方、上下の位置感の表現は苦手としています。

また、バイノーラルマイクの台本でよく見かけるのが、距離の記載だと思います。
これも人間の音の認知力の問題によるところが大きいのですが、微細な距離感の認知はそもそも人間は苦手としています。
例えばですが、真正面0cmの距離から音が発生したときと、10cmの距離から音が発生した時の差は、実際には認知できていないといっても過言ではないです。
それが認知できるのは、息がかかっただとか、温度を感じただとか、そういった付属の情報を別の感覚器で認知できた時に限ります。
ですので、バイノーラルマイクは微細な距離感の表現はほぼ不可能だと考えてください。

そんな中でも、SAMREC 2700Pro(約60万円)というバイノーラルマイクは少し特殊です。
KU100が苦手であると定義した位置感について、優位性があります。
マイク以外の条件をすべてそろえた兎月りりむ。オリジナル比較検証では、SAMREC 2700Proは上下の位置感がKU100よりもわかりやすいという結果になりました。
※兎月りりむ。のSAMRECは声に合わせたカスタマイズでより声質と位置感に明瞭さをもたせる工夫をしていますが、その工夫なしでもKU100よりも位置感に優位性がありました
この要因は、同じダミーヘッドといえど、SAMRECはヘッドと同じ素材を用いて、首下の肩部分がやや存在しているからではないかと考えています。単に首下に何かのモノを取り付けるのではなく、ヘッドとまったく同じ素材で継ぎ目なく首下肩部分があることで、よりリアルな人間の頭に近い構造になっているからなのではないでしょうか。

ですが、音の質感はKU100とは当然異なる（現実の音のように音の輪郭が柔らかいです）ので、トータルで見た時にどちらが良いかは、好みによるところだと思います。
どちらのマイクのほうが良い音なのか、と当然悩むと思いますが、以上の理由により、「求めるものによる」というのが私の結論です。
そもそも、良い音の定義は人それぞれという前提がある以上、絶対にこれという結論は出せないのが現状です。
ぜひ、ご自分の目標に沿ったツールを選びましょう！！

バイノーラル台本の書き方・極

ということで、以上の前提をもとにバイノーラル台本の書き方をご紹介します。
ここでのフォーマットは、兎月りりむ。に依頼する際の推奨フォーマットになります。
他の声優さんに依頼する時は、他の声優さんのルールをきちんと確認して台本を仕上げましょう。
この記事をご覧になっている声優さんで、本記事のフォーマットを採用したい！と感じた方は、遠慮なく本記事をリンクしてください。
※本フォーマットを用いて発生した如何なるトラブル/損害への責任は負いかねます。

図1：台本フォーマット例

台本フォーマット例のDLはこちらからどうぞ！

Download Now!

今回は、以下のバイノーラル用の演技指示・台詞の推奨フォーマットを作成するとします。
どのようにこの推奨形式をつくっていくのかをステップごとに解説していきます。

(右・近・有声音囁き)
おーい、起きてる？早く起きないと、いたずらしちゃうぞ？
（ここまで）

章目次：
①収録位置・距離感を記載しよう。
②（囁き台詞の場合は）有声音か無声音なのかを記載しよう。
③台詞を記載しよう。
④台詞の終わりに、位置指定の有効範囲を記載しよう。

ひとつずつ説明します。

①収録位置を記載しよう。

まず最初に、どの方向で収録して欲しいのかを記載します。
以下のバリエーションから選んでください。

収録位置（方向）：左・正面・右・やや左・やや右・上・下
収録位置（距離）：密着・近・中・遠

「後ろとか右斜め上とか左斜め下とかが無いじゃん！」と感じる方もいると思いますが、私はアウトプットの関係からそういった微細な位置取りは採用すべきではないと考えます。
先程述べた通り、人間は微細な位置取りの認知が苦手です。
ですので右斜め上、左斜め下などの微細な位置どりは、収録音にその位置を認知させられるだけの結果をほとんどもたらさないのです。
そのほとんどがユーザーにとっては、単に音がボケただけとか、右・左にいるなあとしか認知してもらえないことが多いです。
演者にとっても、位置を移動するたびに集中力を削がれることが多いかつ作業の工程が増えるわりには、かかる時間と体力のコストに対してほとんどメリットを感じないレベルの変化しか生まれないため、徒労感があります。
ですので、特別に意味のあるシーンではない限りは、それよりも演技そのものに集中させてくれというのが本音かと思います。

（作品のなかで、しっかりと情景描写をして位置感を得るための情報が十分にユーザーにインプットされている状態かつ、作品上キーポイントとなる重要なシーンでの位置移動は売りになると思いますので推奨です。）

以上の理由から、
収録位置（方向）の指定に用いる表現は、
左・正面・右・やや左・やや右・上・下に限定してください。

収録位置（距離）の指定に用いる表現は、
密着・近・中・遠に限定してください。

現在の進捗：
(右・近)

※追記：
後方表現（後ろ）については難易度が高いので基本的には推奨しませんが、上級者向け考察を記事最下部に記載しています。追記(後方の位置表現をリアルにするための編集ヒント)

▶閑話：魔法陣のような位置指定はNG

いつの間にか一般化しているバイノーラル収録のツールに、位置指定のための魔法陣があるのを見たことがある人も多いと思います。
では、この魔法陣を採用すべきなのでは？と考えますよね。

さて、皆さんはどう考えますでしょうか？
私は、必ずしもバイノーラル魔法陣は採用すべきとは思いません。
以下の質問の答えを考えてみてください。

１「あなたは、音に位置感を与えるための処理を詳細に知っていますか？」
２「声優は様々な収録環境で収録します。その状態で、一律の魔法陣を与えた時に、同じアウトプットを得られると思いますか？」

１は、おそらく多くの場合NOですし、２も、やはりNOですよね。
特に、２の質問について解説します。
魔法陣には距離まで指定できるので一見便利そうに感じますが、
収録環境によっては、同じ魔法陣で収録したとしても得られる結果に差が出てきます。
収録環境というのは、機材はもちろんのこと、部屋の大きさ、壁・床の材質など多岐にわたります。
AさんとBさんに距離３０cmでしてもらった音源があるとします。
この二つの音源が完全に同じ距離を感じる音源になっていることは、そうそうありません。
なぜならば、同じ機材を揃えたとしても、収録ブースの環境は異なることが多いからです。
また、同じ声優・同じ機材・同じ魔法陣でも、声質・声量によってさらに得られる結果は変わってきます。

また、魔法陣は後方の位置指定まで含まれていると思います。
音の情報を受容するのが人間である以上、後方からの音の認知が比較的苦手であるということは覆しようのない事実です。
つまり、位置指定に後方まで含まれている必要はあまりないと考えます。
魔法陣を使って収録を行うことにあまり意味がないとする根拠は、これらにあります。

では、どうすべきなのでしょうか？
私は、位置取りと距離感のイメージを声優さんに伝えて、あとはお任せすることで十分だと思います。
大事なのは、距離感のセンチメートルを守ってもらうことではなくて、
実際音を聞いて受け取る距離のイメージが再現されていることですよね？
であれば、初期位置（正面・中）から相対的に見て、近いのか、遠いのかを伝えられさえすれば良いはずです。

収録中に声優さんは音のモニターを行なっているわけですから、きちんと依頼者さんの要望が伝わってさえいれば、ある程度イメージ通りの成果物を出してくれるはずです。
具体的な距離を魔法陣やcm単位で指定するよりも、よほどイメージ通りのデータが手に入ると思います。

②（囁き台詞の場合は）有声音か無声音なのかを記載しよう。

普通の発声で収録してほしい場合には特に指示書を入れる必要はないです。
バイノーラル録音で非常に多い「囁き」の演技の場合は必ず入れて欲しい指示があります。
それは、有声音囁きなのか、無声音囁きなのか、ということです。
人によって囁き声のイメージの認識には差があります。
声が完全にのっていない「こしょこしょ声」だと認識する人もいれば、少し声がのっている囁き声だと認識する人もいます。
こういった解釈違いによるリテイクを防ぐため、また、声優が演技を迷わないようにするためにも、必ず指定しましょう。
有声音と無声音の囁きの違いは以下のページにまとめてありますので、ご一読ください。
囁く演技をしてほしいんだけど、どう指示したらいい？@同人音声.com
ここまで含めた書き方は以下の通りです。

現在の進捗：
(右・近・有声音囁き)

③台詞を記載しよう。

次に、台詞を記載してください。
この時気をつけてほしいのが、かぎかっこ（「」）はつけないということです。
通常、「」がついていても邪魔です。デメリットはあってもメリットはないのです。
なぜなら、基本的には台本に書かれているテキストの多くは読み上げ、割合が少ない読まない部分である演技指示は判別できるようになっているので、わざわざ「」がついている必要もなく、不要な記号は目をすべらせミステイクがおこる原因になるからです。
良かれと思って面倒ながらもつけている方もいらっしゃるかと思います。全て収録前に消していますので、しないでいただいて大丈夫です！

どうしても必要であろうとき（強調したいとか、キャラクターが劇中のなかで別のキャラを演じるようなシーンのような、「」が無いと困るタイプの作品だとか）だけ使用してください。
ここまで含めた書き方は以下の通りです。

現在の進捗：
(右・近・有声音囁き)
おーい、起きてる？早く起きないと、いたずらしちゃうぞ？

④台詞の終わりに、位置指定の有効範囲を記載しよう。

台詞の終わりに（ここまで）という記載をお願いします。
これは(右・近・有声音囁き)という演技指定がどの台詞まで有効なのかを示す目印になります。

同人音声どっとこむでは、以前はこの範囲指定については任意としていたのですが、今後は兎月りりむ。の収録サービスではなるべく必須とさせてください。
何故かというと、多くの収録依頼を受けるなかでこの範囲指定のルールが作中でブレていることがままあったためです。
収録後になって、「すいませんここは実はこの演技指定なんです」といった形でリテイクに至るケースが頻発しておりました。
また、演じている最中にこういった指示のブレから迷いが生じることも多く、余計な工数をかけてしまっている現状があります。

確実にこの問題を防ぐためには、やはり演技指定に対して（ここまで）という目印を必ずつけてもらうことが必要であると感じています。
もともとは、この目印をつけること自体が依頼者さんにとって手間であるため任意でとの記載にしていたのですが、結局こういった形でのリテイクが頻発していることを見ると、目印をつける以上のデメリットが依頼者様・声優双方に発生してしまうため、兎月推奨フォーマットにおいて今後は必須とさせていただきたいと考えています。

ただし、台本をライターさんに外注しているなど、フォーマットを統一しきれない事情がある場合もあると思います。その場合は、以下の条件でも可能ですので、ぜひご依頼ください。

・不明瞭な演技指定のために発生したリテイクについては、有償でも良い場合。
・台本形式の修正をオプションサービスとして兎月りりむ。に申し込む場合。
・フォーマット遵守ではない分だけ増加してしまう収録工数分を加味したご予算でも可能な場合。
・形はやや異なるものの、台本推奨フォーマットを構成する重要な要素が抜け漏れなく記載されている
・読むにあたり台本の形それ自体でひっかかることのないオリジナルフォーマット（≒演じるにあたって不必要な記載がなく、必要な要素が盛り込まれている）

現在の進捗：
(右・近・有声音囁き)
おーい、起きてる？早く起きないと、いたずらしちゃうぞ？
（ここまで）

完成！！✨

原則、演技指示/位置指定が変化するタイミングだけで指示は差し込んでください。
変化がないのにも関わらず、１文１文、ひと段落ずつなどのまとまりごとに演技指示/位置指定を差し込む必要はないです。収録時に不要な混乱を招き、解釈違いをおこしてしまうリスクも十分にありますので、NGです。
良かれと思って面倒ながらもつけている方もいらっしゃるかと思います。こちらも全て収録前に消していますので、しないでいただいて大丈夫です！

その他の演技指定を含みたい場合

読む速度の指定や、演技そのものへの要望などを盛り込みたい場合もあると思います。
その場合は以下のような形で（）内に差し込んでいただけると良いかと！

（右・中・無声音囁き・遅め）
（腹が立つ感じで煽ってください）
しこしこしこしこ💕しこしこしこしこ💕
（ここまで）

▶閑話：読む速度の指定方法について

読む速度の指定については、基本はBPM指定ではなく以下の記載でお願いいたします。
遅め・やや遅め・ふつう(記載不要)・やや速め・速め
理由は以下の3点です。
1.一見一定に見えるBPM数字指定でも、人によりイメージするリズムの認識に差異があること（8ビートなのか16ビートなのか、抽挿ペースなのか喘ぎリズムなのか等）
2.BPMの指定が出るたび、ウェブメトロノームをもちいてリズムを確認する工数が挟まることに加え、それにより演技への集中が切れてしまうこと
3.標準的な速さを擦り合わせておけば、相対的に変化する速さをシーンに合わせて演技することは十分可能だから
→どうしても日本語表現で実現できないほどの緻密な指定がある場合は、BPM及びリズムの認識を合わせるための参考情報で承ることも可能です。

最後に

いかがでしたでしょうか？
そりゃあ360度全方位から音が聞こえる音声は理想的ですけど、いくら凄いバイノーラルマイク収録でも人間の耳の限界には敵わないわけで・・・
「どこまでをバイノーラルマイクの力で実現して、どこからを台本の力で聞き手の認知を錯覚させるかの線引きがしやすくなる」
「演じるにあたって迷う、集中力を削ぐものを極力省き、良い演技を声優さんから引き出すことができる」
を実現するバイノーラル台本形式のご紹介でした。

えっ、ちょっとシンプルすぎない？という感想を持たれる方もいると思います。
もっと声優が見やすい台本にする方法として、マーカーを引くとか、文字色を変えるとか、フォントをいじるとか、かっこを分けるとか、まだまだやれることっていっぱいあると思うんです。

これまで数十以上のサークル様とご一緒に作品制作をした経験上、1つとして同じ台本形式はありません。サークルの色はあって然るべきだと思うのです。
細かいところまで必須レベルで定義しきってしまうのはあまりにもサークル/ライターさんにルーズを押し付ける形になるので今回は採用しませんでした。

声優側にもライター側にも労力がかかりすぎることがない、必要十分な形
というバニラアイスのようなコンセプトが望ましいと思い、今回の形にしています。

「自分は台本書く時にマーカーひいても苦労しないし、時間はかからないよ！」
「声優さんのためにもっとわかりやすい形にしてあげたいなー」
という場合には、バニラアイスにチョコレートをトッピングするようにご自由に追加していただくのはむしろOK！です。

※あまりにも色々追加しすぎて、声優さんが見たときむしろ訳わからん!!という状態にならないようにだけお気をつけて……

これを叩きにして、あなただけのオリジナル台本を探究していってくださいね！

台本フォーマット例のDLはこちらからどうぞ！

Download Now!

追記(後方の位置表現をリアルにするための編集ヒント)

とはいえ後方の位置を作中で表現したい、ってこともありますよね。
「FPSゲームをイヤホンでプレイしているときに後方の音にどんな処理がされているのか？」を考えながら遊ぶとすごく参考になります。
例えばボーダーランズ3というFPSでは、NPCに対して同距離のまま後ろを向くと声がボヤけて聴こえる処理が強めになされています。
現実の耳よりもボヤけ感を極端に強調しているわけですね。そしてどのキャラクターが喋っても同じ処理がされています。
こうすることで、ボヤけ感のある音が真ん中から聴こえてきたときに「このNPCは背後から喋っているな」と思わせる強さがあるのでしょう。
もちろんFPSなのでプレイヤーはNPCを視覚的に見て位置を感じることができます。
平面のディスプレイと左右からの音しかインプット情報としては無いわけですが、3Dグラフィック＋サウンド加工の組み合わせで立体感ある世界を頭のなかに描くわけですね！

追記の追記：
ちなみに、KU100で後ろから音を収録すると、正面で収録した音をかなりボヤかしたようなものが出来上がります。
単にこれだけ聴いても、「後ろから話しかけられている」ようには感じることは難しく、「なんだか突然に音質が下がった」ように感じられるでしょう。
KU100の後方収録の音よりも、正面収録にボヤけ加工を編集で施した方が聴き心地が良くほど、後方からの音はあまり良くないです。
ダミーヘッドの耳の後ろ側が、後方からの音がマイクカプセルに到達するのを妨害しているから音質が悪くなるのは当然ですね。
結論、後方からの音を表現したい場合には、KU100で後方からの音を収録させるのではなく、正面の音を編集で音量小＋ボヤけ感加工とするのが推奨です。
それに加え、音では後ろから話しかけられているという状況を事前にインプットしておく、もしくは「今後ろにいます」のように台詞で明確に位置を言ってしまう、
といったイマジネーションを聞き手に働かせる工夫とセットでないとユーザーからの評価は厳しいものになると思います。

参考資料

本記事と併せて読むことでより理解が深まるであろう参考サイトです。
VR機器のOculusの開発者向けサイトです。VRは視覚情報だけでなく、聴覚情報もあってこそなんだなとコンテンツの力の入れ具合をみて感じました。
やはり前面と背面は人間の耳の特性上認知が難しいのだー！

Oculus for Developers ,Localization and the Human Auditory System
https://developer.oculus.com/learn/audio-intro-localization

–一部引用–
Front/Back/Elevation
Front versus back localization is significantly more difficult than lateral localization. We cannot rely on time differences, since interaural time and/or level differences may be zero for a sound in front of or behind the listener.