Designing the ethics
of a synthetic voice.合成音声の
倫理を設計する
As head of design at Descript, I led the CX and UX of Overdub: an ultra-realistic synthetic clone voice that shipped in 2020, two years before “deepfake” became a household word. The hard work wasn't pixels. It was deciding what we would and would not let this thing do, and committing the company to it.Descriptのデザイン責任者として、OverdubのCXとUXをリードしました。本人の声を限りなく忠実に再現する合成音声で、2020年にリリース。「ディープフェイク」という言葉が世間に広まる二年前のことです。難しかったのは画面ではありません。この機能に何を許し、何を許さないかを決め、会社としてその決断を引き受けることでした
A feature with tremendous upside, and a deepfake on its other face.片面には計り知れない価値。もう片面にはディープフェイク。
Descript was an audio editor for podcasts and narrative media: you edit the transcript and the audio edits with it. Overdub added a synthetic clone of the user's own voice so they could “photoshop” recordings: insert a missed word, fix a name, regenerate a flubbed sentence in a way that blended seamlessly with the real take.Descriptはポッドキャストやナラティブメディア向けの音声エディタです。文字起こしを編集すれば音声も同じように編集される。Overdubはそこに、ユーザー本人の声を再現する合成音声を加えました。録音を「Photoshopのように」直す機能です。抜けた一語を挿入する。名前を言い直す。とちったセンテンスを、実録と区別がつかないかたちで生成しなおす
The benefit to creators was enormous. The risk was equally enormous. The same technology that fixes a podcaster's stumble can fabricate a CEO's resignation, a partner's confession, a politician's confession. In 2019 there was no shared playbook for this. We were going to ship one of the first consumer-grade voice clones, and we had to decide, as a small company with a three-month runway and two engineers, what kind of object we were releasing into the world.クリエイターにとっての恩恵は大きい。同じだけ、リスクも大きい。ポッドキャスターの言い間違いを直す技術は、CEOの辞任声明や、配偶者の告白、政治家の自白を偽造することもできてしまう。2019年当時、これにどう向き合うかの定石はまだ存在していませんでした。私たちは消費者向けの音声クローンとしてはごく初期の一つを世に出そうとしており、小さな会社が三ヶ月の期間とエンジニア二名という体制のなかで、世に何を送り出すのかを自分たちで決めなければならなかったのです。
Ethics as a design surface, not a checkbox.倫理は設計の対象であってチェック項目ではない
Most product teams treat misuse prevention as something Legal bolts on at the end. I argued the opposite: misuse prevention was the primary UX surface of this product, because it would determine whether the feature could exist at all. The brief I wrote myself was simple: design the system so that the worst plausible abuses are structurally hard, not just discouraged.多くのプロダクトチームは、悪用防止を最後に法務が後付けするものとして扱います。私の主張は逆でした。Overdubにとって悪用防止は、プロダクトの主たるUX面である。それが成立するかどうかが、機能そのものの成立可否を決めるからです。自分で書いたブリーフはシンプルでした:起こりうる最悪の悪用を、抑止ではなく構造として困難にする仕組みを設計すること
That meant working at the level of business model, user roles, identity, and consent, not just screens. I drove the conversation across the CEO, BD, marketing, engineering, and R&D, and turned the result into a system the whole company could agree on and ship against.そのためには、画面ではなく事業モデル、ユーザー権限、本人確認、同意の階層で設計する必要がありました。CEO、BD、マーケティング、エンジニアリング、R&Dを横断して議論をまとめ、会社全体で合意し、出荷の拠り所にできるひとつの仕組みへと落とし込んでいきました。
Four calls made at the executive table.経営の場で下した四つの判断
Each of these was a fork the company could not walk back from. I owned the design argument; the CEO owned the final yes. I packaged each one so the answer was a yes/no, not a debate.いずれも、後戻りのきかない分岐点でした。設計上の論を立てるのは私の役割、最終的な是非を引き受けるのはCEOの役割。私はそれぞれを、議論のテーブルではなく可否の問いとして提示できるかたちに整えていきました
Lock identity to voice. You can only clone yourself.本人と声を結びつける クローンできるのは自分の声だけ
The single most important call. No user could create a voice that wasn't theirs. We built an identity check into onboarding: users had to record randomly generated sentences which Descript matched against their submitted voice data. This collapsed the entire impersonation surface at the source. Without this, nothing else mattered.最も重要な一手。ユーザーは自分以外の声を作れない。オンボーディングのなかに本人確認を組み込み、ランダムに生成された文を読み上げてもらい、提出された音声データと一致するかをDescriptが照合する設計にしました。なりすましの可能性を、その入口で閉じる。これが成立しなければ、残りすべての設計は意味を持ちません
Reconcile pricing with team reality, without breaking either.価格モデルとチームの実情をどちらも壊さず両立させる
BD wanted strict, expensive access to deter casual misuse. But Descript projects were collaborative: a podcast might have ten editors. Strict per-seat pricing would either break collaboration or push teams to share accounts (which would break our identity model). I argued for owner-locked voices distributed via explicit, revocable grants. Pricing follows ownership, collaboration follows consent. BD got safety; teams got their workflow.BDは安易な悪用を抑止するため、厳しく高価なアクセス制限を望んでいました。しかしDescriptのプロジェクトは協働を前提としていて、一本のポッドキャストに編集者が十人ということもある。席数で厳格に課金すれば、協働そのものが壊れるか、チームがアカウントを共有することになる。後者は本人確認の前提を崩します。私は、声は所有者に紐づけ、明示的かつ取り消し可能な権限付与によって配布するという設計を提案しました。価格は所有に従い、協働は同意に従う。BDは安全性を、チームは普段どおりの動き方を、それぞれ手放さずに済む構造です。
Cut the data ask in half, protect the quality floor.データ量は半分以下に 品質の下限は守る
R&D's initial requirement was thirty minutes of clean recorded audio per user. As a UX argument that was a non-starter: most users would quit before finishing. I worked with R&D and ran closed-beta tests to find the floor; we landed at ten minutes, with a linear, scripted onboarding (short sentences, breaks between, varied delivery prompts) that actually produced higher-quality data than letting users upload arbitrary past recordings. Friction down, quality up, identity-check easier. Three wins from one design call.R&Dの当初の要件は、ユーザーごとに30分のクリーンな録音音声でした。UXの議論として、これは成立しません。多くのユーザーは終える前に離脱します。R&Dと組んでクローズドベータで下限を探り、10分まで縮められることを確認。短い文を順に読み上げ、合間に休憩を挟み、異なる感情で読み分けてもらう線型のオンボーディングに整えました。結果として、過去録音の自由アップロードよりむしろ品質の高いデータが得られる仕組みになりました。離脱は下がり、品質は上がり、本人確認もしやすくなる——ひとつの設計判断から、三つの利点が生まれました。
Name the residual risk. Accept it on the record.残るリスクを明文化し 覚悟をもって引き受ける
Even with both gates and a monitoring layer, an authorized editor could whimsically generate offensive audio and export it before any system caught up. That risk could not be designed out; only educated against. I wrote it up explicitly, recommended we educate voice owners about distribution risk, and put the residual on the CEO's desk as a yes/no. He said yes, on the record. That's how the company stayed honest about what it had and hadn't solved.ふたつのゲートとモニタリング層をもってしても、許可された編集者が不快な音声を悪戯に生成し、システムが追いつく前に書き出す可能性は残ります。これは設計で消せるものではなく、声の所有者に拡散リスクを伝え、注意を促すことでしか軽減できません。私はそれを文書として明文化し、所有者への啓発の必要性を併記して、可否の問いとしてCEOの手元に置きました。彼の答えは「諾」、記録に残るかたちでの判断でした。何を解決し、何を解決していないかについて、会社が誠実でいられたのはこの一手があったからです。
The system was carried by small, sharp UX calls.仕組みを支えたのは小さく鋭いUXの判断
Strategy without craft is a memo. The misuse-prevention system only worked because the underlying UX did its job: the identity check had to feel like onboarding, not interrogation; the consent grant had to feel like inviting a collaborator, not signing a contract; the ten-minute recording had to feel finishable.手仕事のない戦略は、ただのメモ書きです。悪用防止の仕組みが機能したのは、その下でUXが自分の仕事を果たしていたからでした。本人確認は尋問ではなく、オンボーディングとして感じられること。権限付与は契約の署名ではなく、仲間を招き入れる動作として感じられること。10分の録音は、最後まで終えられそうだと感じられること
- Linear scripted recording over free-form upload: verifiable identity, standardized data, finishable in one sitting.線型のスクリプト式録音を、自由アップロードよりも優先。本人確認が成立し、データが揃い、ひと続きで終えられる。
- Short-sentence prompts with deliberate emotional variety: natural breaks, richer delivery range, better synthesis.短い文の読み上げに意図的な感情のばらつきを混ぜる。自然な休止が生まれ、声色の幅が広がり、合成の質が上がる。
- In-app video tutorial fronted by the CEO: reused the existing record/edit/upload framework instead of building a parallel onboarding stack. Three months, two engineers.CEO自らが出演するアプリ内チュートリアル。並行のオンボーディング基盤を新規に組まず、既存の「録音・編集・アップロード」の枠組みを再利用。三ヶ月、エンジニア二名という制約への現実解。
- Consent grants modeled on team membership: the mental model was “invite” not “license,” which is how creators actually think.同意付与はチーム招待をモデルに。ユーザーの感覚は「ライセンス付与」ではなく「招待」。制作者が普段考えている動詞に揃える。
Overdub shipped, with a misuse model the company could stand behind.Overdubは世に出た。会社として責任を持てる悪用防止の仕組みを携えて。
Overdub launched in 2020 as one of the first consumer-grade voice clones, and the misuse model held up through the deepfake news cycles that followed. The product survived its own most plausible nightmare scenarios because the constraints were designed in, not bolted on.Overdubは2020年、消費者向けの音声クローンとしてはごく初期のひとつとしてリリースされ、その後に続いたディープフェイク報道の波にも耐えました。最も起こりえた最悪の事態をプロダクトが生き延びたのは、制約が後付けではなく、設計の内側に組み込まれていたからです
If your product enters trail-blazing territory, we can help.プロダクトが前例のない領域に踏み出すとき ご一緒できます
Novel AI products live or die on decisions made before any pixel ships: what to allow, what to refuse, what residual risk the company is willing to sign. Rio brings a decade of doing that work next to executives, and shipping the design that proves the strategy.新規領域のAIプロダクトの成否は、ピクセルが出荷される前の判断で決まります。何を許し、何を拒み、どこまでのリスクを会社として引き受けるか。Rioは経営層の隣でその仕事を十年積み重ね、戦略を証明する設計を出荷の場まで届けてきました