About SITEINFO
AutoPagerizeの基本的な動作は下の2つで、これが繰り返し行われます。
- ページから「次のページのURL」を取り出す。
- 次のページを読み込み、「継ぎ足しに必要な部分」だけを取り出し、継ぎ足しを行う。
AutoPagerizeが動作するには、「次のページのURL」と「継ぎ足しに必要な部分」がどの部分であるかが分る必要があります。これらWebページによって様々なので、なかなか自動で見つけることはできません。そのためAutoPagerizeでは、自動でみつけるのは諦めて、Webページに応じて必要な情報をあらかじめ用意するという方法をとっています。AutoPagerizeでは以下の情報を利用するWebページごとに用意しています。
- 「次のページのURL」を示すXPath式
- 「継ぎ足しに必要な部分」を示すXPath式
- どのWebページ(URL)に対して利用するのかを示す正規表現
これらの情報をまとめたものをSITEINFOと呼んでいます。このSITEINFOがないと、AutoPagerizeはどのページでも使えません。逆に、たくさんあれば様々なページで使えるようになります。いまAutoPagerizeが使えていないページでも、SITEINFOを追加することで使えるようになったりもします。
さらにAutoPagerizeでは、このSITEINFOをユーザ同士で共有し、ユーザがその追加や変更を行っています。そのおかげで、様々なWebページでAutoPagerizeが使えるという状態が維持されているのです。
AutoPagerizeは、SITEINFOを共同で編集するためにwedataというシステムを利用しています。wedataは、誰でもWikiのようにデータを書き換えることができるデータベースです。
あるページでAutoPagerizeを動かすためにSITEINFOつくった場合、これをwedataに登録するこで、他の全ユーザもそれを利用できるようになります。また、ページが変更されSITEINFOを直さないといけなくなったとしても、他のユーザが直してもらえるかもしれません。
SITEINFOの詳細
SITEINFOの各項目の詳細はここを参照してください。
SITEINFOのつくり方
SITEINFOのXPath式などを抽出する方法についてはここを参照してください。
SITEINFOの書き方入門
How to write SITEINFO (ja)
SITEINFOの登録/編集
SITEINFOの登録や編集はここから行えます。ただし、OpenIDによる認証が必要です。
AutoPagerize - wedata
http://wedata.net/databases/AutoPagerize/items