電子書籍 kobo touch ニュース記事取得換ソフト
【 ソフト名称 】 kobo touch 記事取得換ソフト 暫定
【著作権所有者】 マサ(柾)
【 連絡先 】 マサ(柾)の雑記
【 対応機種 】 Windows 7 (.Net Framework4.0が動作する環境)
【 動作確認 】 Windows 7
【 ソフト種別 】 フリーソフトウェア
【 転載条件 】 特になし
■注意事項
本ソフトは暫定版です。(というよりテスト版?)
友人が作成した設定ファイルをベースに動作確認及び調整を行っております。
■kobo touch 記事取得換ソフトトの概要
設定に基づき、リストと記事を取得して、kobo touchに「news.epub」ファイルを作成する事を目的としています。
■インストール方法
適当なディレクトリを作成し、解凍してください。
本ソフトを動作するには、.Net Framework4.0をインストールする必要があります。
インストールされていない場合は、こちらよりアクセスしていただき、手順に従ってインストールを行ってください。
■アンインストール方法
本ソフトを回答したフォルダごとファイルを削除してください。
本プログラムでレジストリは使用していません。
■簡易的な操作方法
kobo touchをPCと接続にしておきます。
次に、インストールフォルダ以下にあるプラグインフォルダに設定ファイルを保存します。
この段階でアプリケーションファイルを実行しソフトを立ち上げ、表示されたリストのうち一つを選択します。(「選択項目のセット」をクリックしてください。)
これで設定は終了です。
実行ボタンを押すとリスト及び記事の取得を開始し、kobo touchを繋いでいる場合は本体にepubデータを作成します。
これで記事の取得は終了となります。
次の起動からは、前回の設定状況がそのまま呼び出されますので、二回目以降は実行ボタンのみでOKです。
ただし、前回読み込んだ古い記事は削除されますのでご注意ください。
個別に削除する場合は画面下リストより「削除」を押すか、「リスト一括削除」ボタンを押し
■詳細な操作方法(設定ファイルの作成方法)
- リストの作成
- タイトルを入力して、読み込みたい記事リストのアドレスを入力します。 (ここではサンプルとしてMSNのサイトを例とします) 参照先の文字コードを設定します。コードは参照先サイトのソースに記載されています。 次に操作画面上部タブより「調整1(記事リスト)」を選択し、現れた「読み込み」ボタンをクリックします。 右側の「処置前」下のボックスに、上記の「読み込みたい記事リストのアドレス」先のソースコードが表示されます。 ソースコードより、記事のタイトルと記事の参照先アドレス以外のコードの削除作業を行います。 削除設定は「Before,After」と書かれたヘッダのあるセルにコードを入力していき、削除ルールを作成します。 「ごみ取り」ボタンは、削除ルールに基づきソースコードを整形し、整形後のコードは「処置後」のボックスに表示されます。 削除ルールについて説明します。 「Before」「After」にそれぞれコードを入力すると、それぞれ条件に合致する範囲のコードを丸ごと削除します。 つまりBeforeに「$lt;head」と入力し、Afterに「/head>」と入力して「ごみ取り」ボタンを押すと、ソースコードの「$lt;head〜/head>」の範囲が丸ごと削除されるわけです。 ここでは記事のタイトルと参照先URLの取得が目的で後述の抜出ルールではヘッダー情報は影響しないで、削除しても問題はありません。 次に、同リストの「Before」にコードを入力し、「After」に入力しない場合について説明します。 この場合はBeforeに入力された文字列を削除します。例えば、「$lt;li class="llcb">」のうち「class="llcb"」の部分を削除したい場合はBeforeの項目に「class="llcb"」と入力し、Afterを未入力とすると「<li >」という結果が出力されるわけです。 現在のごみ取り状況を視覚的に確認したい場合は上記タブより「プレビュー」を選び「リスト(ごみ取り後)」をクリックします。 すると、右側にプレビュー画面が表示されます。 ただし、ヘッダー情報などを削除していると このようにスクリプトエラーなどの画面が出ます。この時はとにかく「はい」を選択してください。 また、ソースコードを部分的に削除されたソースを表示していることに留意もしてください。 上記の作業により、抜き出したい範囲の絞り込みを行います。 次にリストのタイトルと記事のURLを抜出します。 上部タブより調整2(記事リスト)を選択し、←の「記事リストの抜出(<li 〜<a href=〜</li>)」 をクリックすると、下部表の「Title」欄に抜出されたソースコードが表示されます。 Before Afterの設定は前述と同じ動作をしますので、前述の項目で十分に削除している場合はほぼ使う必要はありません。 ただし、抜き出した後に実施される削除処置という位置づけですので、ここではBeforeに「<l」Afterに「>」及び「</l」Afterに「>」の二つを記入して、リストタグの削除を行います。 これでAタグで囲まれた内容のみがリストに表示される形となります。 Aタグ内にクラスなどの指定がある場合はじゃまですので、Beforeにクラス情報を入力して削除してしまいましょう。 次に実施するのは、TitleからURLの部分とタイトルの部分の抜出です。 そのうちタイトルの部分のみ抽出します。 こちらのBefore,Afterも動作は同じです。Title内の文字を削除していき、残った部分をタイトルに保存し、URL部分にはAタグ単品という感じになります。 「タイトル抽出」 Before,Afterに「<」「>」と入力しておけばほぼ他に指定する事もないと考えます。 最後にURLのアドレスのみ抽出です。 ここではBefore,Afterではなく、ごみ取りが目的となりますので「削除」の部分のみ使用することになると思います。 ただし、場合によっては「置換」の部分も使用するケースも存在します。(抽出したURLがフルパスでない場合、フルパスに変更したり、URLの一部を変更する場合など) ここでは「<a href="」「">」の二つを指定し、URLの抽出を行います。 これで読みに行くURLの抽出が終わりです。これでリストの作成が終了となります。 注意点 サンプルではMSNのトピックを例としています。 参照先URLもまた、ここではトピックとなっていることに留意してください。
- 記事の作成
- 上部タブより「調整3(記事)」を選択します。 ここでの操作は「調整1(記事リスト)」と同じです。 「読み込み」のボタンの代わりに、下部表の「取得ボタン」をクリックします。 記事と記事に関わりのある画像タグ以外になるまで削除します。 ここできちんと削除してやらないと、最終的に記事文書の方に反映されてしまいます。 次に出版社の設定です。 余分な広告なスペースなどを削除していくと、最終的にこのくらいになります。 記事内に出版社名が残りますので、これを上部「共有削除・置換リスト/出版社リスト」を選択し、新聞社名の所に入力します。 新聞社名単体であればよいのですが、今回の様にかっこなどでくくられてしまうケースがあります。この時は新聞社名を「(Record China)」とし置換の部分に「Record China」とします。 これは登録した新聞社名そのものを置換する行為ですので、他の名前に置き換える(例:「レコード チャイナ」等)こともできます。 登録されると、記事内より新聞社名が削除され、表の方に新聞社名が反映されます。 次に配信日時の設定です。画像タグ調整と共用になっています。 本文中の「Before」及び「After」で囲まれた範囲を抜出、配信日時として設定します。 画像タグ調整とは、設定された画像ファイルのURLをBefore及びAfterの設定に基づき置換します。 置換後の画像データをダウンロードして設定する形となっています。 最後に、置換・削除の項目です。 こちらで項目が設定されている場合、リスト及び記事のソースコードの個別編集後に処理が実施されます。 各項目の設定ではBeforeAfterで設定された範囲の削除及びBefore文字列の削除のみですが、こちらで設定した場合、置換を行うことが可能です。また、削除項目及び置換情報はリスト・記事共用となります。 リストの抜出は「<li〜/li>」で行われる為、記事リストのソース内にこのタグがないと抽出が出来ません。そのような時は置換情報でリストタグを追加してやることで対応が可能となります。 (例:Before=<a After=<li><a Before=/a> after=/a></li>)
- 特殊について
- 文字列に以下の項目がある場合は、それぞれ特殊文字に変換され処理が行われます。 「&\t」:タブスペース 「&\n」:改行 「&\s」:半角スペース
■諸注意/免責等
当方では、本体機能の障害、データの破損等を含め、本ソフトを利用することで生じた、いかなる損害・問題等について一切の非を負いません。
■修正メモ
Ver0.02
・「rtl」では「左送り」が機能しなかったので「
・拡張子をkepub拡張子付で出力するのが標準と変更。
・記事の追加読み込みの機能の追加
・記事の手動作成機能を追加
・記事リストの保存・呼び出し機能を追加
・epub用表紙ページ(cover.html)の作成
・データ取得方法の変更
・記事内タグの自動変換及びタグ一部削除コードを実装
Ver0.01
・スタイルシート設定の読み込み時に改行が正しく行われない点
・出力されるEpubの記事にリストに戻る為の「戻る」リンク以外にもタイトルにリンクを追加。タイトルクリックでリストに戻るようになる。
・出力されるEpubファイル名の設定機能の追加及び記事取得日時追加の有無機能追加
・処置終了後にダイアログで終了状況の表示
・「実行」などの一括処理実施時、進行状況がわかるようにデバックの物と差し替え。
・記事本文に半角の「&」があるとパースエラーとなる部分の修正。(「&」に置換処理を実施)
・スタイルシート機能を有効
・「フォルダを開く」で開くフォルダを直前の操作によって変動する可変型仕様に変更
・「設定を保存」の位置変更
・「左送り」チェックボックスの作成
・「縦読み」チェックボックスの作成
・出力データに作成日を追記する場合、Epub「タイトル」にも作成日を反映するように設定。
関連記事
■電子書籍 kobo Touch を使ってみる。
■電子書籍 kobo Touch でニュースを読む。
■電子書籍 kobo Touch でtxtや青空文庫を読む。
■電子書籍のEPUBファイルについて【考察】
■電子書籍 kobo デスクトップ 3.02によるバグ
■電子書籍 kobo touch のニュースアプリの開発(メモ
■電子書籍 kobo touch のニュースアプリの開発
■電子書籍 kobo touch のニュースアプリ とりあえず動けばい
■電子書籍 kobo touch 踊る星降るレネシクルの問題
■Epubのcontent.opfにあるguide要素(メモ)
■kobo touch ニュース記事取得換ソフト