フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)

フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)


教師付きコンピューター ラーニング手法である Leo Breiman のランダム フォレスト アルゴリズムを転用してモデルを作成し、予測を生成します。予測は、カテゴリ変数 (分類) と連続変数 (回帰) の両方に対して実行できます。説明変数は、トレーニング フィーチャの属性テーブル内のフィールドです。このツールは、モデルを生成してパフォーマンスを評価するためか、モデルを生成し、別のデータセットに対する結果を予測するために実行できます。

解析タイプ


このツールの操作モードを指定します。このツールは、パフォーマンスの評価のみを目的としてモデルをトレーニングするか、モデルをトレーニングしてフィーチャに対する予測を行うために実行できます。次の予測タイプがあります。

  • モデルをトレーニングしてモデルのパフォーマンスを評価 - モデルがトレーニングされ、入力データに適合されます。このオプションを使用すると、新しいデータセットに対する予測を生成する前に、モデルの精度を評価できます。このオプションの出力内容は、適合されたトレーニング データのフィーチャ サービス、モデル診断、および変数重要度のオプションのテーブルです。
  • モデルをトレーニングして値を予測 - フィーチャに関する予測または分類が生成されます。トレーニング フィーチャと予測対象フィーチャの両方に説明変数を指定する必要があります。このオプションの出力内容は、予測値のフィーチャ サービス、モデル診断、および変数重要度のオプションのテーブルです。

モデルをトレーニングしてモデルのパフォーマンスを評価


このモードは、モデルを適合させ、その適合度を調べる場合に使用します。

これを選択した場合は、モデルが入力レイヤーを使用してトレーニングされます。このオプションを使用すると、新しいデータセットに対する予測を生成する前に、モデルの精度を評価できます。このオプションでは、モデル診断がメッセージ ウィンドウに出力され、モデルがトレーニング データに適用されます。

モデルをトレーニングして値を予測


このモードは、モデルを適合させ、データセットにモデルを適用して予測を生成する場合に使用します。

フィーチャに関する予測または分類が生成されます。このオプションの出力内容は、フィーチャ サービス、モデル診断、および変数重要度のオプションのテーブルです。

トレーニング レイヤーの選択


予測対象変数および予測の生成に使用されるフィールドを含むフィーチャ レイヤー。

マップからレイヤーを選択できるだけでなく、ドロップダウン リストの下部にある [解析レイヤーの選択] を選択し、ビッグ データ ファイル共有データセットまたはフィーチャ レイヤーのコンテンツを参照して選択することもできます。

値を予測するレイヤーの選択


予測が行われる位置を表すフィーチャ レイヤー。このフィーチャ レイヤーには、トレーニング フィーチャから使用されるフィールドに対応するフィールドとして指定された説明変数も含める必要があります。

マップからレイヤーを選択できるだけでなく、ドロップダウン リストの下部にある [解析レイヤーの選択] を選択し、ビッグ データ ファイル共有データセットまたはフィーチャ レイヤーのコンテンツを参照して選択することもできます。

予測するフィールドの選択


モデルのトレーニングに使用される値を含む、トレーニング フィーチャのフィールド。このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。値がカテゴリ (Maple、Pine、Oak など) である場合は、 [カテゴリ] チェックボックスをオンにします。

1 つ以上の説明変数の選択


予測対象変数の値またはカテゴリの予測に役立つ説明変数 (フィールド) を表す 1 つ以上のフィールド。クラスまたはカテゴリ (土地被覆や有無など) を表す変数については、[カテゴリ] チェックボックスを使用します。クラスまたはカテゴリ (土地被覆や有無など) を表す変数の場合は true に設定し、連続変数の場合は false に設定します。

ツリー数


モデル内に作成するツリーの数。通常、ツリーの数を多くすると、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。デフォルトのツリー数は 100 です。

最小リーフ サイズ


リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナル ノード)。デフォルトの最小数は、回帰の場合には 5、分類の場合には 1 になります。大規模なデータの場合は、これらの数を増やすと、このツールの実行時間が短くなります。

最大ツリー階層


ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。デフォルト値は、データに基づき、作成されるツリー数と含まれる変数の数によって異なります。

ツリーあたりの利用可能なデータ (%)


トレーニング レイヤー内で決定木ごとに使用されるフィーチャの割合を指定します。デフォルトはデータの 100% です。各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。

集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニング データのサブセット (約 3 分の 2) が使用されます。各決定木の入力データの割合を低くすると、大規模なデータセットの場合、ツールの実行速度が増します。

ランダムにサンプリングされた変数の数


各決定木の作成に使用される説明変数の数を指定します。

集合内の各決定木の作成には、指定された説明変数のランダムなサブセットが使用されます。各決定木で使用される変数の数を増やすと、特に 1 つ以上のドミナント変数が存在する場合に、モデルの超過適合の可能性が高くなります。一般的な方法として、予測対象変数が数値の場合は、説明変数の総数の平方根を使用し、予測対象変数がカテゴリの場合は、説明変数の総数を 3 で除算します。

説明フィールドを一致させる方法の選択


予測レイヤー内の変数にトレーニング レイヤー内の対応する変数を一致させる方法。トレーニングで使用された変数のみがテーブルに含まれます。

整合チェックの実行回数


整合チェックのためにテスト データセットとして確保するトレーニング レイヤー内のフィーチャの割合 (0 ~ 50 パーセント) を指定します。ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャの観測値が予測値と比較されます。デフォルトは 10 パーセントです。

結果レイヤー名


これは、 [マイ コンテンツ] で作成され、マップに追加されるレイヤーの名前です。デフォルト名は、ツール名と入力レイヤー名に基づいて設定されます。レイヤーがすでに存在する場合は、別の名前を指定するよう求められます。

返される結果は解析のタイプによって決まります。モデルの適合度を評価するためにトレーニングを行う場合、結果には、モデルに適合されたトレーニング データのレイヤーと、モデルの適合度を評価する結果情報が含まれます。トレーニングと予測を行う場合、結果には、モデルに適合されたトレーニング データのレイヤー、予測された結果のレイヤー、およびモデルの適合度を評価する結果情報が含まれます。

[出力の保存先] ドロップダウン ボックスを使用して、結果を保存する [マイ コンテンツ] 内のフォルダーの名前を指定できます。