English   ◀ブログトップ   ▲サイトトップ  

ブログトップ > 2024 年 12 月の記事 > ChatGPT を駆使してサイトを構築した

知られざるエマヌエル・バッハ (C. P. E. バッハ) を紹介するこのサイトに関するブログです.

ChatGPT を駆使してサイトを構築した

このサイトを構築するのには ChatGPT を駆使しています.また,HTML Cleaner というプログラムや自作のコンテンツ管理プログラムをつかっています. それらについて書きます.

ネット上にはエマヌエル・バッハに関して,かぎられた情報しかありません.そのため,彼に関する話題を ChatGPT に振ってもしばしばただしくない情報がえられます.とくに作品番号や曲の調,テンポなどに関する情報はほとんどでたらめです. それでも,そういう部分をさけながら利用することで, ChatGPT をつかってこのサイトを構築してきました.

ChatGPT.png

ChatGPT による解説

エマヌエル・バッハは 4〜6 個程度の作品をまとめた作品集を多数書いています.このような作品集の項目をたてた際には,それに関する解説をしばしば ChatGPT に書かせています. また,作品やバッハの家族,関係する音楽家などの解説も書かせ,またそれらに関する疑問を ChatGPT にこたえさせてきました.ハレーションに気をつける必要がありますが,まだ十分にはチェックしていません.

CD 解説書の情報のとりこみ -- OCR と翻訳

シュパーニの CD の解説書の情報をとりこむため,まずそれをスキャナにかけ,えられた画像を ChatGPT に読ませました.つまり ChatGPT を OCR として使用しました.OCR の選択肢は Google ドライブでつかえる OCR をはじめとしていろいろありますが,それらより ChatGPT のほうがうまく読めるようです.ノイズにも比較的つよいうえ,読めなかった部分もおぎなってくれます (おぎなった部分がまちがっている可能性はありますが…).

そして,えられた英語の情報を日本語に訳させました. 必要に応じて OCR の出力をいきなり日本語にすることもできますが,まず英語を書かせて日本語訳のただしさを検証することもできます. えられた日本語の文章を引用しているページもあります.

SpanyiConcerto2.jpg

さらに,長い文章は ChatGPT に要約させてからサイトに掲載しました.これは逐語訳で発生しうる著作権上の問題をさけるためでもあります.はっきり要約を指示した場合もありますが,ChatGPT は要約を指示しなくても,長い文章は勝手に要約してしまいます.

ChatGPT が書いた文章の構造をいかすために

ChatGPT は結果をリッチテキストでかえしてきますが,それをそのままエディタによませると文章の構造がきえてしまいます. そこで,HTML Cleanerというプログラムで処理することによって HTML タグにし,できるだけ単純にしています.

それでもまだいくつか都合のわるいことがあります.まず,ChatGPT には句読点として ʼ.ʼ, ʼ,ʼ をつかうように指示していますが,それでもすぐに ʼ。ʼ, ʼ、ʼ をつかうようになります.また,しばしば不要な水平線 (<ht />) をひきます.これらを変換または削除するのには Python のプログラムをつかっています.

コンテンツ管理にも 500 行程度の独自の Python のプログラムをつかっています (メイン・サイトの管理とブログの管理は別のプログラムでやっています).WordPress などを使用するのもひとつの案ですが,これまで WordPress をつかったかぎりではなかなかおもうようにならないし,かゆいところに手がとどきません.たとえば,文中に作品番号があらわれるときはそれに関する項目に自動的にリンクしたいのですが,それを WordPress で実現するのは容易でないので,Python でコンテンツ管理プログラムを書いたほうがこのような処理が容易に実現できます. ただし各ページは静的に生成しています.また,自前の検索エンジンはなくて,Google を利用するようになっています.いずれもサボっているということができますが,セキュリティホールをつくらないためでもあります. MacBook 上に公開前のファイルがひととおりあって,さくっとテストできるようになっています.テストで OK となってから公開された Web サイトに転送しています.

ChatGPT が書いた文章の訂正

ChatGPT がエマヌエル・バッハなどについて書く文章にはしばしばあやまりがふくまれています.ほとんどデタラメといってもよい場合もあります. デタラメなもものは採用しませんが,あやまりがあるものは “訂正箇所” や “[補足]” のかたちでおぎなっています.ただし,一部のあやまりが訂正されているだけです.

エマヌエル・バッハに関する情報はまだネット上では十分にありません.ほかの前期古典派やバロックの作曲家などについても,情報が不足しているものが多々あります.そのため,ChatGPT の学習データは不十分であり,ハレーションの原因になっているとかんがえられます. 上記のようにあやまりをとりこまないように努力していますが,まだこのサイトにはおおくのあやまりがふくまれているとかんがえられますので,ご注意ください.

Google でサイトを検索

上位項目

< 2024 年 12 月の記事

Dasyn.com デイシン
Created: 2024-12-24 23:22   Edited: 2025-01-17