無料で音声や動画テキストに変換する方法 - Whisperを使って文字起こしをしてみました！

2024年8月29日 2024年8月29日

nishioka

スキルなしで誰でも簡単に音声や動画ファイルをテキストに変換できる方法をご紹介します。

Whisperを使用

今回、WhisperというOpen AI社が開発した音声認識とトランスクリプション用の機械学習モデルを使用します。このWhisperは99の言語に対応しており、様々な言語の音声や動画ファイルを無料で（！）簡単にテキストに変換可能です。

Whisperを使った音声ファイルのテキスト化手順

Google Colaboratoryを利用します。Gmailのアカウントを使用しGoogleドライブにアクセスするだけで、コードを実行できるプラットフォームです。

Google Colabのインストール

まず、Gmailアカウントを使用してGoogle Driveを開きます。次に、以下の手順に従ってGoogle Colaboratoryをインストールします。

　Google Driveを開き、「新規」をクリックします。
「その他」を選択し、「アプリを追加」をクリックします。
「Colaboratory」を検索し、最初の結果をクリックしてインストールします。
インストールが完了したら、「新規」を再度クリックし、「Google Colaboratory」を選択して開きます。

ランタイムタイプの変更

Colaboratoryを開いたら、次にランタイムタイプをCPUからGPUに変更します。これにより、処理速度が向上し、トランスクリプションの効率が良くなります。

具体的には、次の手順を実行します。

「ランタイム」をクリックし、「ランタイムのタイプを変更」を選択します。
「ハードウェアアクセラレーター」を「GPU」に設定し、「保存」をクリックします。

WhisperとFFmpegのインストール

次に、WhisperとFFmpegをインストールします。FFmpegは音声や動画ファイルを処理するために必要なツールです。以下のコードをColaboratoryに貼り付けて実行します。

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

このコマンドを実行すると、WhisperとFFmpegがインストールされます。

音声または動画ファイルのアップロード

インストールが完了したら、次に音声または動画ファイルをアップロードします。左側のフォルダアイコンをクリックし、ファイルをドラッグ＆ドロップします。

今回、ニュースを録音したiphoneの音声メモ（約1分）をアップロードしてみました。

Whisperを使った自動トランスクリプションの実行

ファイルのアップロードが完了したら、次にトランスクリプションを実行します。以下のコードをColaboratoryに貼り付けて実行します。

!whisper “アップロードしたファイル名" --model medium

実行すると、Whisperが自動的に音声を認識し、テキストに変換します。

ファイルのダウンロード

トランスクリプションが完了したら、ファイルをダウンロードできます。Colaboratoryのサイドバーに、ダウンロード可能なファイルが表示されます。

今回テキストファイルをダウンロードしました。

ダウンロードされた文字起こしがこちらです。句読点は表示されませんでしたが、誤字脱字はありませんでした！すごい！！

まとめ

Whisperを使用することで、音声ファイルを簡単にテキストに変換することができました。Google Colaboratoryを利用することで、ソフトウェアのインストールなしで、誰でも手軽に利用できるのが大きな魅力です。ぜひ、試してみてくださいね。

カテゴリー: ブログ

無料で音声や動画テキストに変換する方法 - Whisperを使って文字起こしをしてみました！

Whisperを使用

Whisperを使った音声ファイルのテキスト化手順

Google Colabのインストール

ランタイムタイプの変更

WhisperとFFmpegのインストール

音声または動画ファイルのアップロード

Whisperを使った自動トランスクリプションの実行

ファイルのダウンロード

まとめ

【Bitrix】作業漏れ防止にチェックリスト「超ラク」活用法

レーティング計算システム第3回

Whisperを使用

Whisperを使った音声ファイルのテキスト化手順

Google Colabのインストール

ランタイムタイプの変更

WhisperとFFmpegのインストール

音声または動画ファイルのアップロード

Whisperを使った自動トランスクリプションの実行

ファイルのダウンロード

まとめ

【Bitrix】作業漏れ防止にチェックリスト「超ラク」活用法

レーティング計算システム 第3回

レーティング計算システム第3回