감독 머신 러닝 방법인 Leo Breiman의 랜덤 포레스트 알고리즘의 채택을 사용하여 예측을 모델링하고 생성합니다. 범주형 변수(분류)와 연속 변수(회귀) 모두에 대해 예측을 수행할 수 있습니다. 설명 변수는 교육 기능의 속성 테이블에 있는 필드입니다. 이 도구를 실행하여 성능을 평가하는 모델을 생성하거나, 모델을 생성하고 다른 데이터셋에 대한 결과를 예측할 수 있습니다.
도구의 작동 모드를 지정합니다. 이 도구를 실행하여 성능만 평가하는 모델을 교육하거나, 모델을 교육하고 피처를 예측할 수 있습니다. 예측 유형은 다음과 같습니다.
이 모드를 사용하면 모델을 적합화하고 적합성을 조사할 수 있습니다.
이 모델을 선택하면 입력 레이어를 사용하여 교육됩니다. 이 옵션을 사용하면 새 데이터셋에서 예측을 생성하기 전에 모델의 정확성을 평가할 수 있습니다. 이 옵션을 사용하면 메시지 창에 모델 진단 결과가 표시되고 모델이 교육 데이터에 적용됩니다.
이 모드를 사용하면 모델을 적합화하고 모델을 데이터셋에 적용하여 예측을 생성할 수 있습니다.
피처에 대한 예측이나 분류가 생성됩니다. 이 옵션의 결과는 피처 서비스, 모델 진단, 변수 중요도 테이블(선택)이 됩니다.
예측할 변수와 예측을 생성하는 데 사용될 필드가 포함된 피처 레이어입니다.
맵에서 레이어를 선택하는 것 이외에, 드롭다운 목록의 하단에 있는 Analysis Layer 선택을 선택하여 빅데이터 파일 공유 데이터셋 또는 피처 레이어의 콘텐츠를 찾아볼 수 있습니다.
예측이 수행될 위치를 나타내는 피처 레이어입니다. 이 피처 레이어에는 교육 피처에서 사용된 것에 해당하는 필드로 제공된 설명 변수도 포함되어야 합니다.
맵에서 레이어를 선택하는 것 이외에, 드롭다운 목록의 하단에 있는 Analysis Layer 선택을 선택하여 빅데이터 파일 공유 데이터셋 또는 피처 레이어의 콘텐츠를 찾아볼 수 있습니다.
모델을 교육하는 데 사용될 값이 포함된 교육 피처의 필드입니다. 이 필드에는 알 수 없는 위치에서 예측하는 데 사용할 변수의 알려진 (교육) 값이 포함되어 있습니다. 값이 범주인 경우 범주 체크 박스를 선택합니다(예시: Maple, Pine, Oak).
예측할 변수의 값 또는 범주를 예측할 수 있는 설명 변수(필드)를 나타내는 하나 이상의 필드입니다. 클래스 또는 범주를 나타내는 변수에 범주형 체크 박스를 사용합니다(예시: 피복 또는 존재/부재). 피복, 존재/부재 등의 클래스나 범주를 나타내는 변수를 true로 지정하고 변수가 연속이면 false로 지정합니다.
모델에 생성될 트리의 수입니다. 일반적으로 트리 수가 많을수록 더욱 정확한 모델이 예측되지만 계산하는 데 오랜 시간이 걸립니다. 트리의 기본 수는 100입니다.
리프를 유지하는 데 필요한 최소 관찰 수입니다(더 이상 분할되지 않는 트리의 터미널 노드). 회귀의 기본 최소값은 5이고 분류의 기본값은 1입니다. 대용량 데이터의 경우 이 수를 늘리면 도구 실행 시간이 단축됩니다.
트리로 분할될 최대 분할 수입니다. 대규모의 최대 깊이를 사용하면 더 많은 분할이 생성되며 모델의 과적합 확률이 높아질 수 있습니다. 기본값은 데이터 기반이며 생성된 트리 수와 포함된 변수의 수에 따라 다릅니다.
각 의사 결정 트리에 사용된 교육 레이어에서 피처의 백분율을 지정합니다. 기본값은 데이터의 100%입니다. 각 트리의 샘플은 지정된 데이터의 3분의 2에서 무작위로 추출됩니다.
포레스트의 각 의사 결정 트리는 사용 가능한 교육 데이터의 랜덤 샘플 또는 일부분(약 3분의2)을 사용하여 생성됩니다. 각 의사 결정 트리에 대한 입력 데이터의 백분율을 낮추면 대용량 데이터셋의 도구 속도가 향상됩니다.
각 의사 결정 트리를 생성하는 데 사용되는 설명 변수의 수를 지정합니다.
포레스트의 각 의사 결정 트리는 지정된 설명 변수 중 랜덤 일부분을 사용하여 생성됩니다. 각 의사 결정 트리에서 사용되는 변수의 수를 늘리면 모델 과적합 가능성이 높아집니다(특히 주요 변수가 1~2개 있는 경우). 일반적으로 예측하는 변수가 숫자인 경우 총 설명 변수 수의 제곱근을 사용하고, 예측하는 변수가 범주형인 경우에는 총 설명 변수 수를 3으로 나눕니다.
교육 레이어의 해당 변수가 예측 레이어의 변수와 매칭되는 방법입니다. 교육에 사용된 변수만 테이블에 포함됩니다.
유효성 검사를 위해 테스트 데이터셋으로 예약할 교육 레이어의 피처 백분율(0%~50%)을 지정합니다. 해당 모델은 임의의 데이터 부분집합 없이 교육되고 이러한 피처의 관찰 값은 예측 값과 비교됩니다. 기본값은 10%입니다.
내 콘텐츠에서 생성되어 맵에 추가되는 레이어의 이름입니다. 기본 이름은 도구 이름과 입력 레이어 이름을 기반으로 합니다. 레이어가 이미 있는 경우 다른 이름을 제공하라는 메시지가 나타납니다.
반환된 결과는 분석 유형에 따라 다릅니다. 모델 적합성을 평가하기 위해 교육을 하는 경우 결과에는 모델에 적합한 교육 데이터의 레이어와 모델 적합성을 평가하는 결과 정보가 포함됩니다. 교육 및 예측을 하는 경우 결과에는 모델에 적합한 교육 데이터의 레이어, 예측된 결과의 레이어, 모델 적합성을 평가하는 결과 정보가 포함됩니다.
결과 저장: 드롭다운 상자를 사용하여 내 콘텐츠에서 결과를 저장할 폴더의 이름을 지정할 수 있습니다.