無料で音声や動画テキストに変換する方法 - Whisperを使って文字起こしをしてみました!

スキルなしで誰でも簡単に音声や動画ファイルをテキストに変換できる方法をご紹介します。

Whisperを使用

今回、WhisperというOpen AI社が開発した音声認識とトランスクリプション用の機械学習モデルを使用します。このWhisperは99の言語に対応しており、様々な言語の音声や動画ファイルを無料で(!)簡単にテキストに変換可能です。

Whisperを使った音声ファイルのテキスト化手順

Google Colaboratoryを利用します。Gmailのアカウントを使用しGoogleドライブにアクセスするだけで、コードを実行できるプラットフォームです。

Google Colabのインストール

まず、Gmailアカウントを使用してGoogle Driveを開きます。次に、以下の手順に従ってGoogle Colaboratoryをインストールします。

  1.  Google Driveを開き、「新規」をクリックします。
  2. 「その他」を選択し、「アプリを追加」をクリックします。
  3. 「Colaboratory」を検索し、最初の結果をクリックしてインストールします。
  4. インストールが完了したら、「新規」を再度クリックし、「Google Colaboratory」を選択して開きます。

ランタイムタイプの変更

Colaboratoryを開いたら、次にランタイムタイプをCPUからGPUに変更します。これにより、処理速度が向上し、トランスクリプションの効率が良くなります。

具体的には、次の手順を実行します。

  1. 「ランタイム」をクリックし、「ランタイムのタイプを変更」を選択します。
  2. 「ハードウェア アクセラレーター」を「GPU」に設定し、「保存」をクリックします。

WhisperとFFmpegのインストール

次に、WhisperとFFmpegをインストールします。FFmpegは音声や動画ファイルを処理するために必要なツールです。以下のコードをColaboratoryに貼り付けて実行します。

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

このコマンドを実行すると、WhisperとFFmpegがインストールされます。

音声または動画ファイルのアップロード

インストールが完了したら、次に音声または動画ファイルをアップロードします。左側のフォルダアイコンをクリックし、ファイルをドラッグ&ドロップします。

今回、ニュースを録音したiphoneの音声メモ(約1分)をアップロードしてみました。

Whisperを使った自動トランスクリプションの実行

ファイルのアップロードが完了したら、次にトランスクリプションを実行します。以下のコードをColaboratoryに貼り付けて実行します。

!whisper “アップロードしたファイル名" --model medium

実行すると、Whisperが自動的に音声を認識し、テキストに変換します。

ファイルのダウンロード

トランスクリプションが完了したら、ファイルをダウンロードできます。Colaboratoryのサイドバーに、ダウンロード可能なファイルが表示されます。

今回テキストファイルをダウンロードしました。

ダウンロードされた文字起こしがこちらです。句読点は表示されませんでしたが、誤字脱字はありませんでした!すごい!!

まとめ

Whisperを使用することで、音声ファイルを簡単にテキストに変換することができました。Google Colaboratoryを利用することで、ソフトウェアのインストールなしで、誰でも手軽に利用できるのが大きな魅力です。ぜひ、試してみてくださいね。