任意の記事のサマリーを生成する HTML::ExtractContent&Lingua::JA::Summarize::Extract

HTML::ExtractContent - search.cpan.org
Lingua::JA::Summarize::Extract - search.cpan.orgを使って生成。
記事最初の1,2行は、表示されるようにしたほうがいいかな。

#!/usr/bin/perl

use strict;
use warnings;
use LWP::UserAgent;
use URI;
use HTML::ExtractContent;
use Encode;
use Lingua::JA::Summarize::Extract;

my $url = shift;
my $ua = LWP::UserAgent->new;
my $res = $ua->get($url);
if ($res->is_success) {
	my $ext = HTML::ExtractContent->new;
	my $summarize = Lingua::JA::Summarize::Extract->new;
	my $res_summari = $summarize->extract($ext->extract($res->decoded_content)->as_text);
	print "summarize\n";
    print $res_summari = encode('utf-8', $res_summari); 
} else {
	die $res->status_line;
}