Twitter分のインポート準備ができた。

ただし、できたのは準備だけ。
投稿日時:
更新日時: - 誤字脱字の修正

Twitterの自分の全アカウントのアーカイブを取得し、とりあえずツイート内容を取り出すパーサが書けた。

parsed 157434 tweets.

無事にすべてのエラーケースが潰せて、全ツイートがパースできたので件数を吐かせてみたところ、7アカウント分全部で15万7434件あるらしい。

だが、ここから本当にこのブログに載せ替えるには、人力での精査が必要である。

まず、15万7434件の中にはRTも含まれている。RTは僕のコンテンツではないのだから、基本的に抜かねばならない。が、RTを抜くと、RT直後にそのRTしたツイートに言及するスタイルのツイートも、文脈を失うので抜かなければならない。何なら元ツイートがすでに削除されているなどの理由ですでにRT部分が消えていて文脈不明になっているものも多々ある。つまり、単純にRTとその直後のツイートだけを機械的に検出して確認しても足りない。

リプライツリーも、リプライの文脈の中で読まないと意味がわからんし、メンション先との私信みたいなものなので持ってきても困る。しかし、自分の投稿からはじまって自分の投稿だけで構成されるツリーは、ただの分割投稿とみなして、マージして持ってくることができる。まぁここは比較的機械的に前処理ができそうではある。ただ、空中リプライは当然データ上はただのツイートなのでどうしようもない。

あと、プロフィールアイコンと連動していたツイートなんかも当時のアイコンじゃないと意味不明だったりする。当時のアイコン画像は保全されていないので、これもそのまま載せては厳しさがある。

やっかいなのが投票機能で、アーカイブには投票機能を使った痕跡自体が全く含まれない。これは大槻さんから謎の質問などをインポートするには、アーカイブのデータだけでは足りないことを意味する。数値はまぁ自分のデータじゃないしな、という気持ちはある一方、選択肢の文面は自分の創作物だが?という気持ちもある。

投票結果が欲しければ(card_name:poll2choice_text_only OR card_name:poll3choice_text_only OR card_name:poll4choice_text_only) (from:I_Otsuki OR from:Izumi_Otsuki OR from:I_R_Kirishima OR from:I_Renzan_K OR from:Izumi_R_K OR from:I_Henta OR from:Ishin_H)というクエリで検索すれば対象のツイートが全部掘り起こせるはずなのだが、どういうわけかそれぞれの括弧単体だと機能するのに、両者を並べてANDさせようとすると何も引っかからなくなる。うぐぐぐぐ……。

仮にそのデータを取得できたとしてもなお、「人力で15万件をより分けられるのか?」という点には大きな不安が残る。それでも、そもそも現在のTwitterは過去の投稿へアクセスするのがかなり困難なので、僕のコンテンツと大槻泉実自身の歴史を保全し、読者にアクセシビリティ・検索しやすさを提供するためにもこちらに載せ替えたいのは事実なのだ。さてさて一体どうしたものか……。