技術ブログ

プログラミング、IT関連の記事中心

機械学習で使用する画像を集める方法【Python】【google-images-download】

■はじめに

機械学習で使用する膨大な量の画像を集める方法として、1枚ずつGoogleでダウンロードしてもいいですが、途方もない作業になります。

そこで、「google-images-download」を使用して画像をまとめてダウンロードする方法を記載します。

こちらから、「pip」のインストールまで終わらせている必要があります。

■手順

ターミナルで以下のコマンドを実行し、「google_images_download」をインストールします。

pip install google_images_download

インストールしたら、以下のコマンドで実行できます。

googleimagesdownload -k "犬"

上記は、「犬」というキーワードにヒットした画像をカレントディレクトリに保存しています。

このダウンロードした画像で機械学習などに利用していきましょう。

■オプション

ショートカット説明
k画像のキーワードを指定
sk画像のキーワードを複数指定
lダウンロードする画像の数(100件が上限)
※ChromeDriverを使用するとそれ以上、指定可能
f画像の形式(jpg,png,など)
co画像の色(red,blue,など)
ct画像色のタイプ(full-color,transparent,black-and-white)
s画像のサイズ(large,medium,'>400*300',など)
a画像の形(tall,square,など)
tダウンロードする画像タイプ(face,photo,など)
w画像の期間(past-24-hours,past-7-days,など)
o指定したディレクトリに画像を展開(指定しなければカレントディレクトリ)
si画像ファイルやURLから類似の画像をダウンロードする
cdChrome Driverの指定
la言語の指定(Japanese,English,など)

■100件以上まとめてダウンロードする場合

100件以上まとめてダウンロードする場合には、「Chrome Driver」が必要になります。

※「Chrome Driver」は、こちらからダウンロードしてください。

ダウンロード、解凍を行い、出てきた「chromedriver.exe」をカレントディレクトリにコピーし、以下のコマンドを実行することで、100件以上まとめてダウンロードできます(「-l」オプションで件数を指定します。)

googleimagesdownload -ri -cd "chromedriver.exe" -l 1000  -k "犬"