Amazonでセラーの商品をスクレイピングする方法

Amazonで販売者の商品をスクレイピングするには、特にAmazonの洗練されたスクレイピング対策のために、詳細かつ構造的なアプローチが必要です。以下は包括的なチュートリアルで、環境のセットアップからCAPTCHAやダイナミックコンテンツのような課題への対処まで、プロセスの様々な側面をカバーしています。

1.ウェブスクレイピングの準備

スクレイピング・プロセスに入る前に、必要なツールやライブラリーが環境にセットアップされていることを確認する。

a.ツールとライブラリ

パイソン 図書館の豊かなエコシステムで好まれている。
図書館：
- リクエスト:HTTPリクエストを行う。
- ビューティフル・スープ:HTMLコンテンツのパース用。
- セレン:動的なコンテンツやインタラクションを扱う。
- パンダ:データ操作と保存用。
- スクラップ:よりスケーラブルでスパイダーベースのスクレイピングアプローチを好む場合。
代理人管理：
- リクエスト・イップ・ローテーター:IPアドレスをローテーションするためのライブラリ。
- などのプロキシ・サービス オッケープロキシー 回転プロキシ用。
CAPTCHA Solvers：
- こんなサービス 2キャプチャ または アンチキャプチャ CAPTCHAを解くために。

b.環境設定

インストールパイソン (まだインストールされていない場合）。

仮想環境を設定する：

python3 -m venv amazon-scraper
ソース amazon-scraper/bin/activate

必要なライブラリをインストールする：

pip install requests beautifulsoup4 selenium pandas scrapy

2.Amazonのスクレイピング防止メカニズムを理解する

アマゾンは、データ収集の課題である自動スクレイピングを防ぐために、さまざまな技術を採用している：

レート制限： アマゾンは、短期間にリクエストできる数を制限している。
IPブロッキング： 単一のIPからの頻繁なリクエストは、一時的または恒久的な禁止につながる可能性があります。
キャプチャ： これらは、ユーザーが人間かどうかを確認するために提示される。
JavaScriptベースのコンテンツ： 一部のコンテンツはJavaScriptを使用して動的に読み込まれるため、特別な処理が必要です。

3.売り手の商品を探す

a.売り手IDの特定

特定の販売者の商品をスクレイピングするには、まずその販売者の固有のIDまたはストアフロントのURLを特定する必要があります。URLは通常このような形式になっています：

https://www.amazon.com/s?me=SELLER_ID

このURLは、アマゾンの販売者のストアフロントにアクセスすることで見つけることができる。

b.商品リストを取得する

出品者のIDまたはURLがあれば、商品リストの取得を開始できる。Amazonのページはページネーションされていることが多いので、すべての商品がスクレイピングされるようにページネーションを処理する必要があります。

インポートリクエスト
from bs4 import BeautifulSoup

seller_url = "https://www.amazon.com/s?me=SELLER_ID"
ヘッダー = {
    "User-Agent"："Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}

def get_products(seller_url)：
    products = [].
    while seller_url：
        response = requests.get(seller_url, headers=headers)
        soup = BeautifulSoup(response.content, "html.parser")
        
        # 商品の詳細を抽出する
        for product in soup.select(".s-title-instructions-style")：
            title = product.get_text(strip=True)
            products.append(タイトル)
        
        # 次のページのURLを見つける
        next_page = soup.select_one("li.a-last a")
        seller_url = f "https://www.amazon.com{next_page['href']}" if next_page else なし

    商品を返す

products = get_products(seller_url)
print(products)

4.ページネーションの処理

アマゾンの商品ページはページ分割されていることが多く、各ページをループで通過する必要があります。このロジックは ゲットプロダクト この関数では、"Next "ボタンがあるかどうかをチェックし、次のページのURLを抽出する。

5.動的コンテンツの取り扱い

価格や在庫状況など、一部の商品詳細はJavaScriptを使用して動的に読み込まれる場合があります。そのような場合は セレン またはヘッドレスブラウザような 劇作家 スクレイピングの前にページをレンダリングする。

動的コンテンツにSeleniumを使う

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# Chromeのオプションを設定する
chrome_options = Options()
chrome_options.add_argument("--headless") # ヘッドレスモードで実行する
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Chromeドライバを起動する
service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=chrome_options)

# 販売者のページを開く
driver.get("https://www.amazon.com/s?me=SELLER_ID")

# ページが完全に読み込まれるまで待つ
driver.implicitly_wait(5)

# BeautifulSoupでページソースを解析する
soup = BeautifulSoup(driver.page_source, "html.parser")

# 商品の詳細を抽出する
for product in soup.select(".s-title-instructions-style")：
    title = product.get_text(strip=True)
    print(title)

ドライバ.quit()

6.CAPTCHAへの対応

Amazonは、スクレイピングの試みをブロックするためにCAPTCHAを提示することがあります。CAPTCHAに遭遇した場合は、手動で解決するか、以下のようなサービスを利用する必要があります。 2キャプチャ を自動化する。

2Captchaの使用例

輸入リクエスト

captcha_solution = solve_captcha("captcha_image_url") # 2CaptchaのようなCAPTCHA解決サービスを使う。

# 解決策をリクエストと共に送信する
データ
    'field-keywords': 'your_search_term'、
    'captcha': captcha_solution
}
response = requests.post("https://www.amazon.com/s", data=data, headers=headers)

7.プロキシ管理

Amazonで販売者の商品をスクレイピングすることは、プロキシの一般的なユースケースであり、特に価格情報、競合他社のモニタリング、商品リサーチなどに従事する企業にとって重要である。アマゾンは強力なボット対策を行っているため、プロキシを使用することはできません、データスクレイピングのためのプロキシアマゾンの検出を回避するために不可欠である。

IPブロッキングを避けるには、ローテーション・プロキシーを使うことが重要だ。これはプロキシ管理ツールやサービスを使うことで実現できる。

リクエストでプロキシを設定する

プロキシ = {
    「http"："http://username:password@proxy_server:port"、
    「https"："https://username:password@proxy_server:port"、
}

response = requests.get(seller_url, headers=headers, proxies=proxies)

OkeyProxyでIPアドレスをローテーション

オッケープロキシー は特許技術に支えられた理想的なプロキシプロバイダーで、1億5千万以上の実在かつ準拠した回転居住用IPを提供し、あらゆる国/地域のターゲットウェブサイトに素早く接続し、IPのブロックや禁止を簡単に回避します。

8.データ保管

データのスクレイピングに成功したら、それを構造化されたフォーマットで保存する。 パンダ はそのための優れたツールである。

PandasによるCSV保存

pdとしてpandasをインポートする

# products を辞書のリストと仮定する
df = pd.DataFrame(products)
df.to_csv("amazon_products.csv", index=False)

9.ベストプラクティスと課題

リスペクト robots.txt: アマゾンの以下のガイドラインに従ってください。 robots.txt ファイル。
レート制限： アマゾンのサーバーに過負荷がかからないよう、レート制限戦略を導入する。
エラー処理： リクエストのタイムアウト、CAPTCHA、ページが見つからないエラーなど、さまざまなエラーに対応できるように準備しておきましょう。
テスト： スクレーパーを実稼働させる前に、管理された環境で十分にテストすること。
合法性： スクレイピング活動が法的規制およびAmazonの利用規約を遵守していることを確認してください。

10.スクレイピング・プロセスのスケーリング

大規模なスクレイピング作業には、次のようなフレームワークの使用を検討してください。 スクラップ または、分散クロール機能を備えたクラウドプラットフォーム上にスクレーパーをデプロイする。

Amazonセラーの商品をスクレイピングするその他の方法

Amazonは商品情報にアクセスするためにProduct Advertising APIのようなAPIを提供している。この方法は合法的でアマゾンもサポートしていますが、APIアクセスの承認が必要で、範囲も限られています。

長所だ：
公式にサポートされ、信頼できる。
短所だ：
アクセスには制限があり、承認が必要です。

Amazonからのデータ収集に関するFAQ

Q1: アマゾンの商品データをスクレイピングすることは合法ですか？

A: 無断でアマゾンをスクレイピングすることは、アマゾンの利用規約に違反する可能性があります。事前に必ず弁護士にご相談ください。

Q2: アマゾンのスクレイピングでブロックされないようにするには？

A: プロキシを使用してIPをローテーションさせる、robots.txtを尊重する、リクエスト間に遅延を設ける、頻繁なスクレイピングを避けるなど、いくつかの対策はAmazonにブロックされるリスクを最小限に抑えることができる。

Q3: スクレイピング・スクリプトが動作しなくなりました。

A: Amazonがウェブサイトの構造を変更したか、または新しいスクレイピング対策を導入したかどうかを確認し、変更に対応できるようにスクリプトを調整してください。また、スクリプトを定期的にチェックし、メンテナンスすることで、継続的に機能するようにします。

概要

Amazonで販売者の商品をスクレイピングするには、販売者の固有のURLを特定し、ページ分割された商品リストをナビゲートし、Seleniumのようなツールで動的コンテンツを処理する必要があります。CAPTCHAやレート制限といったAmazonのスクレイピング対策があるため、以下を使用することが不可欠です。回転プロキシを利用し、利用規約の遵守を検討する必要があります。静的コンテンツにはBeautifulSoup、動的コンテンツにはSeleniumのようなライブラリを使用し、IPアドレスやレート制限を慎重に管理することで、ブロックされるリスクを最小限に抑えながら、商品データを効率的に抽出・保存することができます。

アマゾンでセラーの商品をかき集める方法

アマゾンのデータ構造

ステップ・バイ・ステップでアマゾンのセラーの商品をかき集める