任意の記事のサマリーを生成する HTML::ExtractContent&Lingua::JA::Summarize::Extract
HTML::ExtractContent - search.cpan.org
Lingua::JA::Summarize::Extract - search.cpan.orgを使って生成。
記事最初の1,2行は、表示されるようにしたほうがいいかな。
#!/usr/bin/perl use strict; use warnings; use LWP::UserAgent; use URI; use HTML::ExtractContent; use Encode; use Lingua::JA::Summarize::Extract; my $url = shift; my $ua = LWP::UserAgent->new; my $res = $ua->get($url); if ($res->is_success) { my $ext = HTML::ExtractContent->new; my $summarize = Lingua::JA::Summarize::Extract->new; my $res_summari = $summarize->extract($ext->extract($res->decoded_content)->as_text); print "summarize\n"; print $res_summari = encode('utf-8', $res_summari); } else { die $res->status_line; }