業務効率化
AIでWEBスクレイピングを体験してみよう! – ChatGPT-4を利用した手法の解説

AIでWEBスクレイピングを体験してみよう! – ChatGPT-4を利用した手法の解説

ハンズバリュー株式会社 代表取締役 島田慶資
経営コンサルタント・作家
長岡技術科学大学 大学院 経営情報システム工学修士
経済産業省推進資格 ITコーディネータ
個人情報保護士


キーワード: チャットGPT, Webスクレイピング, データ取得, 作業効率化
リード: Webスクレイピングは時間と労力を大いに節約するツールですが、その設定には頭を悩ませることも少なくありません。しかし、新たなAI技術「チャットGPT」がこの問題を解決します。この記事では、チャットGPTを使ってWebスクレイピングを体験し、その効果を実感していただきます。


こんにちは、日曜日コンサルティングの島田です。
今回は、Webスクレイピングという作業効率化の一手法について解説します。

導入

いまやテクノロジーが私たちの生活をどれだけ支えているか、考えたことはありますか?

特にAI(人工知能)は、自動化、高度な分析、深い洞察を提供し、多くの業務プロセスを変革しています。

その中でも、私たちはチャットGPT-4の「ブラウジング機能」を使って、ウェブスクレイピングの試みを行いました。その成果をご覧ください。

ChatGPTとそのブラウジング機能について

ChatGPTは、OpenAIによって開発された高度な人工知能です。

有料版を購入すると、無料版以上に豊かな知能を持つモデル4を利用することができます。
その他にも、ブラウジング機能やプラグイン機能など、さまざまな特性を活用することが可能です。

特に注目すべきなのがブラウジング機能で、これによりChatGPTは特定のウェブサイトを訪問し、そこから情報を取得することが可能になります。
これは、単なるチャットボット以上のもので、ウェブスクレイピングと呼ばれる行為を行うことができます。

本記事ではこのブラウジング機能に焦点を当て、その能力を詳しく検証します。

WebスクレイピングとChatGPT

ウェブスクレイピングとは、ウェブページから自動的に大量の情報を抽出する手法を指します。

これにより、手作業で情報を集める時間と労力を大幅に削減することが可能です。

さらに、特定の情報を探す際にも役立ちます。
たとえば、競合他社の製品情報や価格を比較する際などに有用です。
しかし、この手法を用いるためにはプログラミング言語の学習や実行環境の整備、さらにはデータの整合性を確保するための知識が求められます。

そのため、ウェブスクレイピングに取り組むのは少々ハードルが高いと感じる方もいるかもしれません。

ブラウジング機能を用いたウェブスクレイピングの試み

ここで、「ChatGPT」のAIを活用した新たな解決策を紹介します。

Pythonや他のプログラミング言語を使わずに、自然な会話の形で指示を出すだけでWebスクレイピングが可能となります。

私たちはChatGPT-4のブラウジング機能を活用し、以下の3つのウェブサイトから「会社名、代表者、住所、電話番号」を抽出する試みを行いました。サイトを次に示します。(すべて島田が運営しているサイトのため、私がWebスクレイピングしても問題はありません。)

ウェブスクレイピングの試みとその結果

今回の実験では、通常のスクレイピングではデータ取得が難しいサイトを選択し、ChatGPT-4のブラウジング機能を試験しました。

具体的には、以下のプロンプトを用いてウェブスクレイピングを試みました。

次に複数のURLを提供します。URLにアクセスして「会社名、代表者、住所、電話番号」をテーブル形式で表示しなさい。

PROFILE – 日曜日コンサルティング (nichiyoubi.jp)

会社案内 – 認定支援機関ハンズバリュー株式会社 (handsvalue.jp)

会社案内 – 山形市と福島市のホームページ制作会社のつなぐホームページ (0797.jp)

プロンプト

これにより、期待したデータを一部取得することができました。

1回目の生成。表組みにはなっていませんが、一部スクレイピングができています。
2回目の生成。表組みになっています。やはりデータは欠けています。

しかし、一部のウェブページでは期待したようなデータ整理ができませんでした。

複数回試行しましたが、完全なウェブスクレイピングは達成できませんでした。

原因は明らかでないですが、ウェブページの構造やデザインが影響している可能性があります。

さらに、比較のために、同じプロンプトをGPT-4が導入されているとされるエッジのコパイロットに入力しました。しかし、結果は期待以下で、「会話のスタイル」を「よりバランス良く」に設定すると回答が不正確であり、「より厳格に」に設定すると回答を全く返さないという状況でした。

エッジのコパイロットにも同様に生成を依頼した。会話のスタイルはバランスを選択。誤った情報が入っている。
エッジのコパイロット。「会話のスタイル」は「厳格」だと、回答がそもそも生成されない。

現在の課題

今回の試みから、現在のChatGPT-4のブラウジング機能には、いくつかの課題が明らかになりました。

特に、ウェブページの構造が複雑な場合や、情報が特定の形式で表現されていない場合、データ抽出の効率性が低下することがあります。

しかし、これは現状に過ぎません。
AIの性能向上やプラグイン機能の開発により、より適切な結果を得る可能性は高まりつつあります。

実験の結論

技術は日進月歩であり、AIもその例外ではありません。

ウェブスクレイピングの試みは、GPT-4の可能性を広げ、その能力を最大限に引き出す一助となります。

これらの試みを通じて、私たちは今後の開発や改良につながる有益な洞察を得ることができました。

まとめ

現段階では、Webスクレイピングは実現可能ではありますが、時間がかかり、また結果が不完全であるため、まだ実用レベルには達していないと言えます。

しかし、今後は専門のプラグインが登場するなど、解決策が見つかる可能性があるため、引き続き開発の進展に注目しましょう。


FAQ

Q: GPT-4のブラウジング機能は誰でも利用できるのですか?
A: GPT-4のブラウジング機能は、チャットGPTの有償プラン(Plus)のユーザーに限られています。詳細な価格と利用条件は、チャットGPTの公式ウェブサイトをご覧ください。

Q: ウェブスクレイピングには法的な問題はありますか?
A: ウェブスクレイピングには法的な観点から見ると複雑な問題が含まれています。特定のウェブサイトからデータを抽出する前に、そのサイトの利用規約を確認し、必要に応じて許可を得ることが重要です。特に、私たちが所有しているウェブサイトで実験を行っていますが、無断でのスクレイピングは推奨していません。

著作権情報

©2023 島田慶資 – ハンズバリュー株式会社. All rights reserved.

皆様の知識と理解の一助になることを心から願っています。今後ともよろしくお願いいたします。