入出力で変わる世界~人はVoiceで時を越える~

人の身体というハードウェアは6000年前からそこまで大きく変わっていない。しかし、内面のソフトウェアと人の身体を拡張する道具は大きく進化した。それによって、人は猿とは全く別の生き物になってしまった。

人のソフトウェアはどのようにするとアップデートされるのか？
使う道具によってアップデートされる。

人が文字を使い始めたのはいつ頃だろうか？紀元前4千年紀後半。5,000年〜6,000年前には最初の文字体系が発明されたと言われている。その文字が人の思考プロセスを変え、行動を変え、複雑な社会、科学を生みだし、人を月に飛ばしたり、何千万に言葉を届けたり、まるで神話の世界の神のような振る舞いができるように人を進化させた。

道具（テクノロジー）は、人を変える
1. 複雑ではないテクノロジーの時代
2. 複雑なテクノロジー時代の革命パターン
モバイルの革命は「空間」的
Voiceの革命は「時間」的
1. 音声メディアは時を越える
2. 具体的に何が起こる？
3. チームメンバーの体験を圧縮して受け取る
時間を操作するインターフェイスの革命に賭ける

1. 道具（テクノロジー）は、人を変える

人間が直接触るテクノロジーは、人間の行動に直接影響し「人」自体を変える。
「心が変われば態度が変わる。態度が変われば行動が変わる。行動が変われば習慣が変わる。習慣が変われば人格が変わる。人格が変われば運命が変わる。運命が変われば人生が変わる。」ように、
　「日常的に扱うテクノロジーが変わればそれを扱う人の行動が変わる。行動が変われば思考プロセスが変わる。思考プロセスが変わるということは、「人」自体が変わる。」のだ。

テクノロジーは人にある種の変革と進化をもたらす。

複雑ではないテクノロジーの時代

トラヤヌスの記念柱銘板

先述したように、人間を大きく変えたテクノロジー、入出力技術として「文字」が挙げられる。
　それまで、人はワーキングメモリーにしばられていたため、累積的であり、分析的ではない/ 状況依存的であって、抽象的ではなかった。
　その文字を大量に印刷するグーテンベルクの活版印刷技術により、最初の近代的大量生産工業商品が誕生する。それにより本は安価になり、コモディティ化し、ヨーロッパ全体の識字率は上昇し、ルネサンスから近代へ向かう。「文字」を手に入れた事によって、それが人の意識を変えてゆき、人に構造的な思考プロセスをもたらした。

1568年に描かれた印刷所の様子

また、その過程で発明されたレコード、写真やフィルムのような複製技術系の入出力メディア/装置も大きく「人」を変えた。
　世界初のレコード（音声記録）技術フォノグラフが誕生するまで、人類は死者の声を聞くことは出来なかった。同期的に流れる時間から「体験」や「世界そのもの」を引き剥がし、非同期に扱うことができるようになったという事だ。
　同時に、それは複製可能で、例えばある１人の歌手の声を限りなく多くの人々へ届けることも可能にした。
　レコードやフィルム・映画によって何百万人もの人に同じ情報を届けることができるようになり、それまで考えられなかった多くの人を一気に扇動可能になり、数百万規模の「大衆」という身体性を人は手に入れ、それらは大量消費や反復を我々にもたらす。

そして、私達は機械の時代から新しい電気の時代へ向かい、テクノロジーは複雑になる。

複雑なテクノロジー時代の革命パターン

世界初のマウス試作品 / SRI International, CC BY-SA 3.0 <https://creativecommons.org/licenses/by-sa/3.0>, via Wikimedia Commons

複雑なテクノロジー、情報技術による革命は2パターンある。一つは基盤となる技術の革命。ディープラーニング（処理技術）やブロックチェーン（新しいアーキテクチャ）に代表される。それ自体はユーザーが直接触るコトがない技術の革命。
　もう一つはマウス、GUIやiPhoneに代表されるような情報技術と人の接点となる新しいインターフェース（入力/出力/操作性）の革命。

人が直接触るのはインターフェースだ。インターフェース（道具）によって人の行動は変わる。（もちろん、基盤技術がなければ、新しいインターフェースは生まれない。一定以上の性能をもった情報処理技術がなければGUIもマウスも生まれなかっただろう。）

1960年代「マウス」がスタンフォード研究所で開発され、1984年にApple社の「Macintosh」や、1985年に「Windows 1.0」にGUIが搭載され、コンピューターのコモディティ化を後押しした。そして「マウス」を「Macintosh」に搭載させたジョブス率いるAppleから「指」で入力できるiPhoneが発表される。それは学習の必要なく子供でさえ扱え、ポケットに入れ持ち運ぶコトができるコンピューターだった。

2007年に発売された初代iPhone / Andrew from London, UK, CC BY-SA 2.0 <https://creativecommons.org/licenses/by-sa/2.0>, via Wikimedia Commons

2. モバイルの革命は「空間」的

iPhoneを筆頭としたスマートフォンの優れた点は子供でさえ扱えるUIだけにはとどまらない。持ち運べる事で、実空間と情報空間を「なめらか」に紐付け扱えるようにする「空間的な革命」であった。コンピューターを持ち運べるようになった人間は持ち運ぶコトで「場」に移動する、またはいるコトそのものを入力とし、適切な情報を取得できる。私たちはiPhone登場時「セカイカメラ」によって電脳コイルの世界が実現する夢をみたが、それは緩やかに実現したのだ。

では、次に起こる「人」そのものを変えるインターフェースの革命はなんなのか？

それはVoiceの革命だ。

3. Voiceの革命は「時間」的

モバイルの次はVoiceと言われてから久しいが、僕が初めてVoiceを認識したのは2014年、ある記事をみた時だった。その記事はセカイカメラ（頓智ドット）ファウンダー井口さんが、Telepathy最高経営責任者をセンセーショナルに退任し、渡米しDOKIDOKIを創業し、「これからはVoiceだ！」的な事を高らかに宣言しているものだった。
　その後、2017年頃から、ディープラーニングにより高精度化するSpeech to text、普及するスマートスピーカーとアレイマイクなどなど次々に世界がVoiceで変わるための材料が揃い始めた。

音声メディアは時を越える

モバイルの革命を「空間的」とするならば、Voiceの革命は時間的だ。
遡れば、音の入出力機能をもつ「フォノトグラフ」が発明され、人は死者の声を聞けるようになった。それによって、不可逆的で同期的な「時間」に逆らい、（限定的ではあるが）時を越えて情報を伝達できたのである。
　しかし、「時間は使いにくい」。時間的に展開する情報・メディアは多くの場合、非構造的で扱いにくい。それを変えるのが「Voice Tech」だ。高精度化するSpeech to textをフックに、非構造的なデータを構造的に扱えるようになりつつある。

フォノトグラフ 1891年の図

具体的に何が起こる？

では、具体的にどういった事が起こるのか？
例えば、近い将来私達は音声によるやり取りを伴う1時間のMTGをVoiceTechにより5分のダイジェストに自動的にまとめ（圧縮して）、それを非同期に夜中でも、朝でも、移動中でも「参加体験」する事ができるようになるだろう。

Voiceを扱うテクノロジーは時間的な情報操作を人類にもたらす。

チームメンバーの体験を圧縮して受け取る

実際に、僕はユーザー・インサイト情報に特化した会話サマリーAI電話 pickuponをつかって、数名のセールスが毎月何百時間もかけて音声で多くの顧客とやり取りの中から、顧客の課題に関係する、顧客の言及センテンスだけ、Slackを通じてテキストベースで共有され、気になるものはそこだけ音声で確認（参加体験）する事ができている。
　本来であれば各セールスとMTGに同行し、何百時間もの時間を使わなければ得られなかった情報・体験を、数秒の時間に絞って（もしくは圧縮して）「体験」することができている。

会話サマリーAI電話 pickupon 製品写真

4. 時間を操作するインターフェイスの革命に賭ける

井口さんが、「これからはVoiceだ！」的な事を高らかに宣言していた時、僕はそうなんだ、ぐらいにしか思っておらず、視覚メディアに夢中になっていた。
　その後、高精度化するSpeech to text、普及するスマートスピーカーとアレイマイクなどが揃い始め、徐々にVoiceTechは発話体験というメディアをどのように扱うか？メディアを再発明する領域で、ある種、見えない音声を伴う体験を視覚的に扱う視覚メディアであるなと思ったタイミングからこの事業ドメインに着目し始めた。
　その後、音、視覚など五感の延長でイメージされるメディアモデルに収まらない、時間や体験を扱うメディアであると気が付き、今では、人生をかけても良いものと思っている。

そんな僕たちは先日、勝負するには十分な額の資金調達を実施した。
これから全方位的に採用もかけていく。

電話でのやりとりをAIがサマって共有する「pickupon（ピクポン）」開発、2.4億円をプレシリーズA調達

顧客との電話でのやり取りを、AI（人工知能）が音声認識・解析し文字情報の形式にまとめてくれるサービス「 pickupon（ピクポン）」を開発する pickupon は15日、プレシリーズ A ラウンドで2.4億円を調達したと発表した。調達額にはデットが含まれる。このラウンドに参加したのは、サイバーエージェント・キャピタル、マネックスベンチャーズ、コロプラネクスト、セゾン・ベンチャーズ、CARTA VENTURES、East Ventures、MIRAISE、大冨智弘氏。 pickupon は2019年9月

https://thebridge.jp/2022/06/pickupon-pre-series-a-round-funding

もし、この革命に、人類にもたらすスケールの大きさ、インパクトに、心震え、賭けてもよいと思う人がいれば、ぜひ、声をかけて欲しい。

世界を、人の行動を、そして「人」自体を大きく変えるチャンスは人生においてそう多くはない。

最前線で戦う仲間を集う。

小幡洋一｜note

デザイン・HCI・メディアアート領域をバックグラウンドに、システム制作会社でCGMメディアの立ち上げや、PRアナリティクスプロダクト（SaaS）の開発に携わる。2018年2月に起業しー「こまってる。」で世界をかえるーをミッションにpickupon株式会社を起業＆代表してます。

https://note.com/yobata

このストーリーが気になったら、遊びに来てみませんか？

VoiceTechが切り開く未来を、間近でいっしょに見ませんか？

入出力で変わる世界~人はVoiceで時を越える~

Yoichi Obata

pickupon株式会社 / Founder・代表取締役

SaaS メディアモバイルテクノロジー BizDev

9 いいね！

pickupon株式会社

「ユーザーの声をなめらかに価値転換する」ため、会話サマリーAI電話pickuponを作っています。価値提供者は「ユーザーの声を、なめらかに価値転換する」サイクルを光速で回し続ける必要があり、それを支援するためです。課題それを阻害するハードルの一つが「ユーザーとの発話によるやり取り」であると考えました。例えば、何か世の中の生産性を上げ、価値を創出する事業、サービスなどを作る時必ず、発話によるユーザー接点は発生します。なぜなら、音声でのやり取りは楽に多くの情報の交換が一気にできるからです。しかし、発話でのやり取りは記録に残しにくく、残せても扱いにくいデータとしてしか保持できず、活用が進みません。事業やサービスを進化させるための宝の山であり、無視してはならない反応である顧客の声は、事業体内部に精確に届きません。　なぜそういった事が起こるのか？それはメディア（媒介）の問題です。「音声」も「文字」も不完全だからです。音声データはメディアとして不完全ということです。比喩でなく、ユーザーの声は届かない。ソリューション僕たちは、それらをブリッジさせ、ユーザーの「こまってる。」体験を扱えるようにし、それらを共有するための入力作業をこの世から消し去ろうとしています。 pickuponは架電シーンでそれを実現するためのプロダクトです。サービスサイト https://pickupon.io/

フォロー

Yoichi Obataさんにいいねを伝えよう

Yoichi Obataさんや会社があなたに興味を持つかも

pickupon株式会社

入出力で変わる世界~人はVoiceで時を越える~

目次

1. 道具（テクノロジー）は、人を変える

複雑ではないテクノロジーの時代

複雑なテクノロジー時代の革命パターン

2. モバイルの革命は「空間」的

3. Voiceの革命は「時間」的

音声メディアは時を越える

具体的に何が起こる？

チームメンバーの体験を圧縮して受け取る

4. 時間を操作するインターフェイスの革命に賭ける

pickupon株式会社

同じタグの記事

今週のランキング