このブログについて
テレビ番組の録画好きをこじらせてコレクター化してしまい、「いつになったら見るの?」というレベルのボリュームになってしまったストレージ状態の管理人なのですが、テレビ放送から注目すべき情報を取り出し解析することで、これまでにない楽しみ方や活用ができるかもしれないと思い、テキストマイニングに取り組んでおります。
このブログでは、ジャンルを絞らずテレビ番組全般の字幕情報をターゲットとして解析結果を蓄積していくことで、将来のトレンド予測に資するようなヒントを見つけ出すべく、さまざまな角度からデータ検証していきたいと思います。
解析用ソースに関して
解析用ソースの作成について
日本の著作権法では、「情報解析を行うために著作物を複製すること」が営利・非営利問わず認められており、テキストマイニングなどの「情報解析」のために著作物を複製して解析用ソースとすることは、特に問題はないものと考えております。
著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。
著作権法47条の7
本ブログにて記事にしているテキストマイニングの場合は、テレビ放送データのうち映像や音声などは解析対象になりませんので、字幕情報のみをターゲットとするために、テレビ番組の字幕表示部分だけをテキスト化し解析ソースとしております。(画像情報に含まれるテロップは対象外です)
解析用ソースの引用掲載について
文化庁のサイトに有る引用の要件を見てみると…
「引用」とは、例えば自説を補強するために自分の論文の中に他人の文章を掲載しそれを解説する場合のことをいいますが、法律に定められた要件を満たしていれば著作権者の了解なしに利用することができます(第32条)。
この法律の要件の中に、「公正な慣行に合致」や「引用の目的上正当な範囲内」のような要件があるのですが、最高裁判決(写真パロディ事件第1次上告審 昭和55.3.28)を含む多数の判例によって、広く受け入れられている実務的な判断基準が示されています。例えば、[1]主従関係:引用する側とされる側の双方は、質的量的に主従の関係であること [2]明瞭区分性:両者が明確に区分されていること [3]必然性:なぜ、それを引用しなければならないのかの必然性が該当します。
とあります。
各要件に対する本ブログの考え方については以下
主従関係:引用する側とされる側の双方は、質的量的に主従の関係であること
テキストマイニングの解析結果が「主」にあたり、その解析結果を裏付ける解析ソースが「従」に該当します。
質的なところでは、特徴的なキーワードを先鋭化する意味において、解析ソースよりも解析結果の方が質的向上が見られると考えております。
量的なところでは、解析結果の方はおおよそ50KB前後のデータ量となり、引用部は一般的な1時間番組で30KB前後のデータ量となるので、60%程度であれば従にあたる分量と判断できるとの考えです。(引用部のテキストを一定のデータ量に機械的に切り取ることで、更に量的比率を下げて掲載することも考えましたが、同一性保持の観点から、特殊記号の省略や半角全角の表記揺れ調整以外の加工はせず、解析ソース全体を掲載しております)
明瞭区分性:両者が明確に区分されていること
これは記事の構成において見出しを分ける事により対応しており、ブログタイトル下の説明においても解析ソースの引用掲載を明示しております。
また、出典情報が分かりやすいようにEPG情報を前段で引用掲載してありますので、元の番組把握に十分な材料になっているものと思います。
必然性:なぜ、それを引用しなければならないのか?
データ解析の結果について信憑性を担保するためには、裏付けとしてソースを明示し比較確認を可能とすべきであるため、解析結果の根拠となる解析ソースを示す必然性があるとの考えです。
記事の構成について
現状の構成としては、上記に整理した解析用ソースの扱いを前提に、解析結果のアウトプットデータをメインとして記事にしておりますが、この構成に固執するものではございません。
権利事業者様から引用方法に関する指摘及び何らかの要望をいただいた際には、速やかに対処検討いたしますので、遠慮なくお問い合わせいただけますようお願い申し上げます。