SageMaker推論高速化のTIPS

サービスの中でMLによるリアルタイム推論を行う場合、レイテンシーは重要な指標となります。

SageMakerによるリアルタイム推論の導入を検討してる場合、レイテンシーがサービス要件に合うかは気にする場合が多いと思います。

本記事では、SageMaker Endpointの高速化を試し、レイテンシーがどれほど抑えられるか実験してみます。

SageMakerの推論高速化について、こちらの記事で以下の方法が紹介されています。
How To Pick the Best SageMaker Model Hosting Option - Caylent

AWS PrivateLink
- AWS PrivateLinkを利用することで、推論リクエストのAZ間通信をなくし、ネットワークレイテンシーを下げることができます
Elastic Inference
- 深層学習モデルを使用する場合、Elastic Inferenceを利用することで、CPUインスタンスタイプにGPU アクセラレータをアタッチし、コストを抑えつつ推論処理を高速化できます
Nvidia Triton Inference
- 推論ワークフローが複雑な複数要素で構成されてる場合、Triton Inferenceを利用することで最適化されたコンピューティング環境で処理を高速化できます
Multi-model inference endpoint
- 複数モデルの推論エンドポイントを1つにまとめることで、コスト・レイテンシーを抑えることができます
Amazon SageMaker Inference recommender
- Amazon SageMaker Inference recommenderを使用することで、MLモデルに最適な機械学習インスタンスを自動で選択することができます

今回はAWS PrivateLinkの利用によりネットワーク通信速度が改善するか、インスタンスタイプの変更により推論処理速度が改善するかを確認します。

Elastic Inference, Nvidia Triton inerence, Multi model inferenceは深層学習モデルや複数モデルの利用という特定のユースケースに特化してる方法なので今回は扱いません。

実験内容

モデル選択による推論時間の差をなくすため、リクエストを受け取り、定数値を返すダミーモデルを使用します。

モデルの作成とエンドポイントのデプロイ手順はこちらの記事に記載している内容です。

PrivateLinkを使用する場合としない場合で、ネットワーク通信速度の変化を確認します。

異なるAZに配置されたインスタンスにリクエストを割り振ることによるAZ間通信を無くすため、インスタンス数を2に設定します。

インスタンスタイプはml.t2.xlargeを使用します。

SageMaker Endpointでは汎用・コンピューティング最適・メモリ最適・高速コンピューティングのインスタンスタイプが用意されています。
料金 - Amazon SageMaker | AWS

今回は以下の汎用インスタンスタイプの比較を行います。

t2系 : ml.t2.medium, ml.t2.large, ml.t2.xlarge, ml.t2.2xlarge
m5系: ml.m5.large, ml.m5.xlarge, ml.m5.2xlarge, ml.m5.4xlarge, ml.m5.12xlarge, ml.m5.24xlarge