記者会見、インタビュー記事や議事録用の文字起こしが自動化される

パソコンを使った文字起こしというのは、パソコン黎明期から行われていたけれど、音声を再生させてそれを聞きながらテキストを入力していくというものだった。

IBMのVoiceなんたらみたいに、音声を自動でテキスト化してくれるものもあったけど、「。」は「まる」と言わなければならず、「」は「かっこ」といわなければならないなど、面倒でもあり、しかも正確性を上げるには何度も喋って癖を覚えさせるとか、なかなか実用的だとは言えない状態が何年も続いていた。

しかし、最近は音声検索やSiriなどの秘書機能アプリなどの発達によって、驚くほど精度が増し、さらにＡＩによって「文字起こし作業」がいらないくらいまでになってきている。

たとえば、「interviewScribe」というアプリは

音声の波形が表示されるので、どこを聞いているかがわかりやすく、自動で、ある程度話の切れ目（音の切れ目）で区切ってくれるので、聞いた音をそのままタイピングすることがまだできない自分には、文字起こしがしやすいアプリです。（【Mac】音声や動画の文字起こしができるアプリまとめ）

ということだし、CasualTranscribeというアプリは

音声データの再生（再生、停止、３秒前に戻る、３秒先へ進むなど）のショートカットがわかりやすく、操作しやすい印象です。動画データだけでなく、YouTubeで公開されている動画にも対応しています。（【Mac】音声や動画の文字起こしができるアプリまとめ）

実は、Macには音声入力機能が標準でついている。YouTube動画の音声をテキスト化することはすぐにはできないが、別のアプリを組み合わせたり、アプリによっては動画に対応したものもある。

今後は、インタビュー記事作成とか、会議での議事録作成とか、さまざまなケースで、インタビューや会議が終わった時点で文字起こしがされている、という状態になるはず。

さらに、発言者別に分けられたり、要約も自動でできるようになるでしょう。

記者会見では、多くの記者がカタカタパソコンを開いてひたすらメモを打ち込んでいるけど、その姿も変わるかも。音声が録音され、波形データの特定部分を直接再現できれば、テキストを見ながら「ここはどんなニュアンスだっけ？」と確認することができるし、識別エラーがあっても人間の耳で修正できる。

ちょっと真面目に考えるだけでも、かなりの可能性を提示できそう。

ヨロンのひとりごと