ラベル yum の投稿を表示しています。 すべての投稿を表示
ラベル yum の投稿を表示しています。 すべての投稿を表示

2016年3月16日水曜日

Node.jsのスクレイピングモジュールcheerio-httpcliがとても便利

こんにちは。エンジニアのKです。 先日、自社サイト上にて静的HTMLで公開している100ページ近くあるコンテンツを、 改めてDBに登録したいという要望がありました。 幸い、対象のページはHTML的に似た構造をしていたので、スクレイピングで上手いことデータを抽出できないかと調べていたところ、 Node.jsで動く「cheerio-httpcli」を見つけ、とても便利だったので紹介したいと思います。 作者様のGitHubとか GitHub - ktty1220/cheerio-httpcli Node.js用のスクレイピングモジュール「cheerio-httpcli」の紹介 スクレイピングって? ウェブスクレイピング - Wikipedia ひとことで言うと、「ウェブサイトのHTMLを取得して、その中から必要な情報を取り出す」処理になるでしょうか。 再帰的にリンクを辿って行く場合、大量のリクエストが飛んでしまいますので、リクエスト間にインターバルを設けるなどしてDoS攻撃にならないようにしましょう。 また、取得したコンテンツには著作権がありますので取り扱いに注意しましょう。 cheerio-httpcliをインストール 今回はまっさらなCentOS...