タイトルの通りツイートIDをキーに Twitter API からツイート情報をゲットする Perl プログラム。Net::Twitter を使うだけ。
■コード (twitterapi_id2tweet.pl)
■実行例
memo:
API へのアクセス数の時間当たり上限が決まっているので sleep 入れましょう。
下記のデータのテキスト部分の復元に使えます(が、すでに消えているツイートあり)。
- 場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)
http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
ツイートテキストを外部参照とするタグ付きコーパスを作って公開する際には、なるべく利用期間の長いユーザのツイートを選択するのが良いかもしれません。
■コード (twitterapi_id2tweet.pl)
#!/usr/bin/env perl use strict; use warnings; use JSON; use Net::Twitter; use utf8; binmode STDOUT, ":utf8"; $| = 1; my $nt = Net::Twitter->new( traits => [qw/API::RESTv1_1/], ssl => 1, consumer_key => 'XXXXXX', consumer_secret => 'XXXXXX', access_token => 'XXXXXX', access_token_secret => 'XXXXXX', ); while (<>) { chomp; next if not /^\d+$/; my $rs = eval { $nt->show_status($_) }; print to_json($rs)."\n" if $rs; sleep 6; };
■実行例
% cat test.txt 614651698812973056 614290454532657152 611666348645552128 611473704011169792 % ./twitterapi_id2tweet.pl test.txt | fold -60 {"retweeted":false,"source":"<a href=\"http://ifttt.com\" re l=\"nofollow\">IFTTT</a>","favorited":false,"coordinates":nu ll,"place":null,"retweet_count":0,"possibly_sensitive_appeal able":false,"entities":{"media":[{"display_url":"pic.twitter ...
memo:
API へのアクセス数の時間当たり上限が決まっているので sleep 入れましょう。
下記のデータのテキスト部分の復元に使えます(が、すでに消えているツイートあり)。
- 場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)
http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
ツイートテキストを外部参照とするタグ付きコーパスを作って公開する際には、なるべく利用期間の長いユーザのツイートを選択するのが良いかもしれません。