肉球でキーボード

MLエンジニアの技術ブログです

「Machine Learning System Design Interview」読書メモ

本記事について

機械学習システム設計の面接対策本である「Machine Learning System Design Interview」を読んだ時の読書メモです。
本書についての紹介記事は以下となってます。 nsakki55.hatenablog.com

本書の公式HP
bytebytego.com

1. Introduction and Overview

MLシステムデザインを行うためのフレームワークを作成

  • Clarifying requirements
  • Framing the problem as an ML task
  • Data preparation
  • Model deployment
  • Evaluation
  • Deployment and serving
  • Monitoring and infrastructure

Clarifying Requirements

  • 問題の解像度を上げるために以下の質問を行う
    • Business objective
    • Features the system needs to support
    • Data
    • Constraints
    • Scale of the system
    • Performance

Frame the Problem as an ML Task

  • ML Taskの枠組みを決める
  • Defining the ML objective
    • ビジネス目標をMLの問題に落とし込む
  • Specifying the systems’s input and output
    • MLモデルの入力と出力を明確にする
  • Choosing the right ML category

Data Preparation

  • MLモデルに高品質のデータを入力するための処理
  • Data Engineering
    • データエンジニアリングはデータを収集・保存・取得・加工するパイプラインを設計・構築すること
    • Data sources: MLシステムは異なる生成元からのデータを組み合わせて使用する
    • Data storage: データ集合を保持・管理する。Relational, Kye/Value, Column-based, Graph, Documentでデータベースが異なる。
    • ETL : データ取得・加工・保存プロセス
    • Data types : 構造化・非構造化データに分類でき、適応するモデルアルゴリズムが変わる
  • Feature Engineering
    • 特徴量エンジニアリングは2つのプロセスが含まれる
      • ドメイン知識を使って生データから有効な特徴を抽出する
      • 有効な特徴をモデルが使用可能なデータ型に変換する
    • 特徴量エンジニアリングの操作
      • Handling missing values : 欠損値の取扱い。削除と補完が一般的。
      • Feature Scaling : 正規化・標準化・ログスケーリングがある。
      • Discretization(Bucketing) : 連続値をカテゴリ特徴に変換するプロセス。
      • Encoding categorical features: カテゴリ特徴をモデルに入力できるデータ型に変換する。Integer encoding, One-hot encoding, Embedding learning がある。

Model Deployment

  • Model Deoloymentは適切なMLモデルを選択し学習するプロセス
  • Model selection
    • モデル選択の典型的なプロセス
      • 簡単なベースラインの作成
      • 簡単なモデルで実験
      • より複雑なモデルに切り替え
      • さらなる精度向上が必要な場合モデルアンサンブルを使用する
    • 典型的なモデル選択肢
      • ロジスティック回帰
      • 線形回帰
      • 決定木
      • 勾配ブースティング木
      • SVM
      • Naive Bayes
      • Factorization Machine(FM)
      • Neural Networks
    • モデル比較基準
      • 学習に必要なデータ量
      • 学習速度
      • 調整が必要なハイパーパラメータ数
      • 継続的学習の可能性
      • コンピューティングリソース要件
      • モデル解釈性
  • Model Training
    • データセットの作成 : 5ステップに分かれる。生データ収集→特徴とラベルの決定→サンプリング戦略の選定→データ分割→クラス不均衡の対応
      • サンプリング戦略の種類
        • convenience sampling, snowball sampling, stratified sampling, reservoir sampling, importance sampling
    • 損失関数の選定 : 既存の損失関数のリストから選ぶのが常だが、問題に応じて独自の変更を加える必要がある
    • scratch vs fine-tuning
    • 分散学習 : 時間が経過するにつれモデルとデータ規模が大きくなる場合に重要となる

Evaluation

  • Offline evaluatioin
    • ground truthと予測値の近さを測る指標を使う
  • Online evaluation
    • モデルインパクトを測るためにオフライン指標とは異なるビジネス指標を選ぶ
    • 例: Ad click predictionの場合はClick-through rate, revenue lift

Deployment and Serving

  • Cloud vs on-device deployment : trade offが存在
    • デプロイの簡易さ
    • コスト
    • ネットワークレイテンシ
    • 推論レイテンシ
    • ハードウェア制約
    • プライバシー
    • インターネット接続への依存
  • Model compression : モデルサイズを小さくする操作。3つの方法がよく使われる
    • 知識蒸留 : 大きいモデル(teacher)を模倣した小さなモデル(student)を学習
    • プルーニング : 不必要なパラメータを0にすることでモデルをスパースにする
    • 量子化 : パラメータのデータ型を小さくする
  • Test in production : 本番リクエストを用いてモデルをテストする。シャドウデプロイ、ABテスト、カナリアリリース、インターリービング、バンディットなど。
  • Prediction pipeline
    • Batch prediction
      • 事前に予測値を計算
      • 2つの欠点
        • ユーザー嗜好の変化に対応ができない
        • 事前に計算する必要がある予測が分かってる場合でないと活用できない
    • Online prediction
      • 推論リクエストが来るたびに予測値を計算
      • 予測値取得に時間がかかる可能性がある

Monitoring

  • Why a system fails in production
    • データ分布シフトが最も頻繁に起きる理由
    • データ分布シフトへの対応方法
      • 大規模データセットでの学習
      • 新しいデータ分布でのモデル学習
  • What to monitor
    • システム運用関連指標
      • CPU/GPU利用率、リクエスト数、平均レスポンス時間
    • ML関連指標
      • モデルの入力・出力、ドリフト、モデル精度、モデルバージョン

Infrastructure

  • 学習・デプロイ・MLシステム運用の基盤
  • ML Interviewでは聞かれることは少ないが、DevOps・MLOpsのロールでは必要な知識

2. Visual Search System

Pinterstのような画像をもとに類似画像を検索するシステムの構築。

Clarifying Requirements

論点

  • ランク付けを類似順に行うのか
  • 動画もサポートするか
  • ユーザーごとパーソナライズした結果を表示するか
  • モデルは画像メタデータ・タグを使用できるか
  • Click以外のユーザーアクションは行われるか
  • コンテンツ監視を行うか
  • 学習データのラベリングはユーザー行動をもとに作成できるか
  • 検索速度はどれくらい早い必要があるか

要件整理

  • ユーザーから与えられた画像をクエリとして、類似画像を検索する
  • 類似度に基づいてランク付し、ユーザーに表示する
  • 画像のみをサポート
  • パーソナライズは不要

Frame the Problem as an ML Task

Defining the ML objective

  • ユーザーが探してる画像を正確に取得すること

Specifying the system’s input and output

  • 入力 : クエリ画像
  • 出力 : 類似度に基づいてランク付された画像一覧

Choosing the right ML category

  • visual search systemはランキング問題としてみなせる
  • Representation Learning (表現学習)
    • 入力データをEmbeddingと呼ばれる内部表現に変換できるように学習したモデル
    • 入力画像をN次元の埋め込み空間にマッピングするモデルと捉えられる
  • Representation Learningを使用して画像をランキングする
    • 入力画像をEmbeddingベクトルに変換
    • Embedding空間上でのクエリ画像と他の画像の距離を測定し、類似度スコアを計算する

Data Preparation

Data engineering

  • 利用可能データ
    • Images
    • Users
    • User-image interactions

Feature engineering

  • 典型的な画像処理テクニック
    • Resizing
    • Scaling
    • Z-score normalization
    • Consistent color mode

Model Deployment

Model selection

  • Neural Networksを選択
    • Neural Networksは画像やテキストのような非構造化データを扱いやすい
    • 表現学習で必要なEmbeddingを作成するのに、Neural Networksは古典的モデルより優れている
  • モデル候補
    • CNN-based : ResNet
    • Transformer-based : ViT

Model training

  • 学習過程でEmbeddingを取得できる必要がある
  • contrastive training
    • 類似・非類似画像の区別を行うモデルを学習
    • 類似画像はクエリ画像と内部表現が近くなるように学習される

Constructing the dataset

  • contrastive trainingのデータ
    • クエリ画像(1) + 類似画像(1) + 非類似画像(n-1)
  • 類似画像のラベリング方法
    • 人間による判定
    • Clickをプロキシ指標とした判定
    • クエリ画像から人工的に生成
  • ベストなアプローチ
    • trade-offを考慮して複数の選択肢を議論することが重要
    • 自己教師学習の手法を採用する
      • SimCLRのような手法が大規模データでの学習結果を担保しやすい
      • 数億の画像イメージにアクセスできる

Choosing the loss function

  • 学習の目的はEmbedding空間で類似画像データが近くなるように、モデルパラメータが学習されること
  • 生成されたEmbeddingの品質を測定できるよう損失関数を設計
  • contrastive loss
    • compute similarities
    • Softmax
    • Cross-entropy

Evaluation

  • offline metrics
    • 検索システムで一般的に使用される指標
      • Mean reciprocal rank (MRR)
      • Recall@k
      • Precision@k
      • Mean average precision (mAP)
      • Normalized discounted cumulative gain (nDCG)
    • nDCGをオフライン指標として使用する
  • online metrics
    • Click-through rate (CTR)
      • 検索・レコメンドシステムで一般的に使用される
    • 提案画像に使われた時間
      • 検索システムが正確であるほど、増加が期待される指標

Serving

  • Prediction pipeline
    • Embedding generation service
      • 入力クエリ画像のEmbeddingを計算するサービス
    • Nearest neighbor service
      • Embedding空間からクエリ画像との近傍画像を取得する
    • Re-ranking service
      • ビジネスロジックに関わる処理
      • プライベート画像の除外、重複画像の除外などの不適切な結果のフィルターを行う
  • Indexing pipeline
    • Indexing service
      • 検索パフォーマンス向上のために全ての画像のインデックスを作成
      • 新しい画像を追加された際にインデックスを生成
    • Performance of nearest neighbor (NN) algorithms

Other Talking Points

  • 不適切コンテンツ除去の対応
  • ポジションバイアスのような別のバイアスの存在
  • 検索結果向上のために画像メタデータ・タグをどのように活用するか
  • 物体検知を利用した効率的な切り抜き
  • 良い内部表現を学習するためにグラフニューラルネットワークをどのように活用するか
  • Textを入力とした画像検索をサポートするには
  • データアノテーションのために active learning, human-in-the-loopをどのように活用するか

3. Google Street View Blurring System

Google Street Viewのようなボカシを入れるシステムの構築。

Clarifying Requirements

論点

  • ビジネス目標はユーザーのプライバシーを守ることか
  • 設計するシステムはStreet View画像から人間の顔と車ナンバープレートを見つけ、ボカシを入れること。適切にボカシが入っていない場合、ユーザーから報告できる。
  • アノテーション済み画像は手に入るか
  • 人種、年齢、性別といったバイアスを持つデータセット
  • 厳しいレイテンシ要件が求められるか

要件整理

  • Street View画像から人間の顔と車ナンバープレートを検知し、ボカシをいれるシステムを設計する
  • アノテーション済みの100万画像が存在
  • システムのビジネス目標はユーザープライバシーを守ること

Frame the Problem as an ML Task

Defining the ML objective

  • 画像中から特定の物体を正確に検知すること

Specifying the system’s input and output

  • 入力 : 物体が0または複数ある画像
  • 出力 : 物体の位置

Choosing the right ML category

  • 物体検知システムは2つの機能を担う
    • 画像中の各物体の位置を予測. 回帰問題
    • バウンディングボックスのクラスを予測. 他クラス分類問題
  • Two-stage networks
    • 2つの分割されたモデルが使われる. R-CNN, Fast R-CNN, Faster-RCNN
      • Region proposal network(RPN)
        • 画像をスキャンし物体と思われる候補領域を提示する
      • Classifier
        • 候補領域の物体を分類
  • One-stage networks
    • 1つのモデルでバウンディングボックスとクラス分類を行う. YOLO, SSD
  • Two-stage networksを採用する
    • 100万データは一般的な物体検知のデータセットサイズと比較すると多いわけではない
    • Two-stageにしても学習コストが肥大化しない

Data Preparation

Data Engineering

Feature Engineering

  • データ拡張
    • Random crop
    • Random saturation
    • Vertical or horizontal flip
    • Rotation and/or translation
    • Affine transformations
    • Changing brightness, saturation, or contrast
  • データ拡張による生成タイミングは2通りの方法がある
    • オフライン : 学習前に生成
    • オンライン : 学習中に都度生成

Model Deployment

Model Selection

  • モデル要素
    • Convolutional layers
    • Region Proposal Network (RPN)
    • Classifier

Model training

  • 2つの損失関数を使用
    • Regression loss
    • Classification loss

Evaluation

  • バウンディングボックス予測値の評価指標
    • Inference Over Union (IOU)
  • offline metrics
    • 物体検知で便利な指標
      • Precision
      • Average Precision
      • Mean Average Precision
  • online metrics
    • ユーザーレポート数・不満数
    • 異なる人種や年齢グループにまたがって平等に人間の顔にボカシを入れられてるか

Serving

  • Overlapping bounding boxes
    • Non-maximum suppression (NMS)
    • ML system design
      • Batch prediction pipeline
        • Preprocessing
          • 生データを特徴量データに加工
        • Blurring service
          1. 画像中で検出した物体リストを作成
          2. NMSを用いて検出した物体のリストを調整
          3. 検出した物体にボカシをいれる
          4. オブジェクトストレージにボカシを入れた画像を保存
      • Data pipeline
        • Hard negative mining
          • 予測が誤った画像を学習データに追加

Other Taking Points

  • Transformer-basedの物体検知アーキテクチャはone-stage, two-stageモデルとどう異なるか、それぞれのメリット・デメリットは何か
  • 分散学習を用いた大規模データセットでの物体検知モデルの改善
  • GDPRのシステムへの影響
  • 顔検知システムのバイアスの評価
  • どのように継続的にモデルをファインチューニングするか
  • 学習のためのデータポイントを選択するために、active learningとhuman-in-the-loop-MLをどのように利用するか

4. YouTube Video Search

YouTubeのようなTextクエリから最も関連する動画を検索するシステムを構築する

Clarifying Requirements

論点

  • 入力クエリはTextのみか
  • プラットフォームのコンテンツは動画のみか
  • 動画は映像コンテンツとタイトルや説明書きのテキストデータで決定される
  • 利用可能な学習データはあるか
  • 英語以外の言語もサポートする必要があるか
  • プラットフォームに存在する動画の数は何個か
  • 結果をパーソナライズ化する必要があるか

要件整理

  • 動画の検索システムの構築
  • 入力はテキストクエリ、出力はテキストクエリに関連性のある動画のリスト
  • 動画の映像コンテンツとテキストデータを利用可能
  • 1000万個の動画とテキストのペアの学習データセットが利用可能

Frame the Problem as an ML Task

Defining the ML objective

  • Textクエリとの関連性に基づいた動画のランク付け

Specifying the system’s input and output

  • 入力 : text クエリ
  • 出力 : text クエリとの関連性に基づいて並び替えられた動画のリスト

Choosing the right ML category

  • Visual search
    • Textクエリと映像コンテンツの関連性に基づいて動画をランク付する
    • 表現学習が一般的に使用される
    • Video Encoder と Text Encoderを持ち、Video EmbeddingとText Embeddingの内積計算で類似性の計算を行う
  • Text search
    • Textクエリと動画のタイトル、説明、タグなどのTextデータとの類似性に基づいて動画をランク付する
    • 転置索引(Inverted Index )が一般的に使用される
    • 機械学習モデルを必要とせず、学習コストがかからない
    • Elastic Searchが有名な検索エンジン

Data Preparation

Feature Engineering

  • Preparing text data
    • Text normalization
    • Tokenization
    • Tokens to IDs
  • Preparing video data
    • decode frames
    • sample frames
    • resizing
    • scaling, normalization, correcting color mode

Model Deployment

  • Model selection
    • Text encoder
      • Textをベクトルへと変換し、意味の近い文章同士の距離が近くなるようにEmbeddingを生成する
      • Statistical methods
        • 統計的手法により文章を特徴ベクトルへと変換する
        • Bag of Words (BoW), Term Frequency Inverse Document Frequency (TF-IDF)
      • ML-based methods
        • MLモデルにより単語同士の意味の近さを反映したEmbedding空間を作成する
        • Embedding (lookup) layer, Word2vec, Transformer-based architectures
      • 最も効果的なEmbeddingを作成できるTransformer-besed architecturesを採用する
    • Video encoder
      • Video-level models
        • 動画全体でembeddingを作成する
        • モデルは動画全体を処理し、計算コストが高い
      • Frame-level models
        • 動画からフレーム画像をサンプリングしEmbeddingを作成する
        • モデルはフレーム画像を処理し、計算コストが低い
        • 動画の連続的な特徴を学習できない
      • 学習と推論足が早く計算コストが低い、ViT(Frame-level model)を採用する

Evaluation

  • Offline metrics
    • Precision@k, mAP
    • Recall@k
    • Mean Reciprocal Rank (MRR)
  • Online metrics
    • Click-through rate (CTR)
    • Video completion rate
    • Total watch time of search results

Serving

  • Prediction pipeline
    • Visual search
      • Textクエリのembeddingを取得し、最近傍探索で類似動画を検索する
    • Text search
      • Textクエリから動画タイトル・タグを検索する
    • Flushing layer
      • Visual searchとText searchの結果を組み合わせる
    • Re-ranking service
  • Video indexing pipeline
    • 学習済みのvideo encoderを用いて新しい動画のembeddingのindexを作成
  • Text indexing pipeline
    • 新しい動画のタイトル・タグのElasticSearchのindexを作成

Other Talking Points

  • マルチステージの設計(候補生成+ランキング)
  • 動画秒数・動画の人気度などの特徴の使用
  • ユーザー行動(click, like)でラベリングしたデータの活用
  • Textクエリと意味の近いタイトル・タグを見つけるMLモデルの使用
  • クエリ分類の要素追加
  • 検索結果向上ためにマルチモーダルモデルをどのように使用するか
  • 多言語サポートを行うためにどのように拡張すればよいか
  • 重複動画がユーザー体験に悪影響を及ぼすか
  • Textクエリを要素分解することの効果
  • 出力リストを生成する際に人気度や新規度を考慮するにはどうすれば良いか
  • 現実世界の検索システムがどう動いてるか

5. Harmful Content Detection

Facebook, LinkedIn, Twitterのような有害なコンテンツの検知システムを構築する

Clarifying Requirements

論点

  • 有害なコンテンツとアカウントの両方を検知するか
  • 投稿はテキスト・画像・動画が含まれるか
  • 英語のみをサポートするか
  • 有害なコンテンツはどのようなカテゴリを考慮するべきか
  • 投稿をラベリングする人間のアノテーターは存在するか
  • ユーザーからの有害コンテンツの報告を機能に含めるか
  • 有害コンテンツとなった理由を説明する必要があるか
  • システムのレイテンシー要件はあるか

要件整理

  • 新しい投稿がされた時に有害コンテンツの検知を行い、なぜ有害扱いされたかの説明をユーザーに知らせる
  • コンテンツはテキスト・画像・動画で構成され、さまざまな言語がある
  • ユーザーは有害コンテンツを報告できる

Frame the Problem as an ML Task

Defining the ML objective

  • 有害コンテンツを正確に検知する

Specifying the system’s input and output

  • 入力 : 投稿(画像・テキスト・動画・ユーザー情報)
    • Late fusion
      • 異なるデータ型ごとのMLモデルを作成し、それぞれの結果を合成する方法
      • 各モデルで学習・評価が可能
      • 複数モデル学習のコストがかかる。各データの組み合わせ情報が失われる。
    • Early fusion
      • 異なるデータ型を先に合成し1つのモデルを作成する
      • 1つのモデル学習だけ行えば良い。データの組み合わせ情報を使用できる
      • モーダルの関係性を学習するのが難しい
  • 出力 : 有害である確率値

Choosing the right ML category

  • MLカテゴリの候補
    • 単クラス分類
    • 有害クラスごとの単クラス分類
    • 他クラス分類
    • 他タスク分類 (採用)
      • Shared layers
        • 入力特徴を新しいデータに変換するための隠れ層
      • Task-specific layers
        • クラスごとの独自のML層
        • クラスごとに特徴を変換し分類のために最適化する

Data Preparation

Data engineering

  • 利用可能データ
    • ユーザー情報
    • 投稿
    • ユーザーの投稿に対する反応

Feature Engineering

  • Text content
    • Text preprocessing
      • normalization, tokenization
    • Vectorization
      • 事前学習済みのDistlmBERTの使用
  • Image or video
    • Preprocessing
      • decode, resize, normalize
    • Feature extraction
      • image, videoを特徴量ベクトルに変換する
      • image
        • CLIP, SimCLR
      • video
        • VideoMoCo
  • User reactions to the post
    • like, シェア、コメント、報告数
      • 数値特徴にしてscaling
    • 投稿に対するコメント
      • コメントごとのembeddingを作成
      • コメントごとのembeddingを集約
  • Author features
    • 投稿者の過去記録
      • 不適切な投稿数
      • ユーザーからの報告数
      • 不適切な単語割合
    • 投稿者のデモグラ情報
      • 年齢
      • 性別
      • 都市
    • アカウント情報
      • フォロワー・フォロー数
      • アカウント歴
  • Contextual infofmation
    • 日付
    • 端末

Model Deployment

  • Model selection
    • Neural Networks
  • Model training
    • Constructing the dataset
      • Hand labeling
        • 人手で後からラベリングしたデータ
        • 評価に使用する
      • Natural labeling
        • ユーザーからの報告でラベリングしたデータ
        • 学習に使用する
    • Choosing the loss function
      • タスクごとのcross entropyの和

Evaluation

  • Offline metrics
    • PR-curve
    • ROC-curve
  • Online metrics
    • Prevalence
      • 全投稿の内、防げなかった有害コンテンツの割合
    • Harmful impressions
    • Valid appeals
      • 有害と判定した内、誤って判定した割合
    • Positive rate
    • User reports per harmful class

Serving

  • Harmful content detection service
    • 新しい投稿があった際に有害コンテンツの確率を予測する
  • Violation enforcement service
    • 有害コンテンツの確率が高い投稿を削除する
  • Demoting service
    • 確率が低く有害コンテンツとして予測した投稿を一時的に降格する

Other Talking Points

  • 人間によるラベリングで発生したバイアスを扱う
  • 流行の有害クラスに対応する
  • ユーザーの一連の行動情報を有害コンテンツ予測に使用する
  • 人間のレビューのために効率的に投稿をサンプリングする
  • グレーゾーンのコンテンツへの対応
  • オンデバイスへのデプロイを行い、有害コンテンツ検知システムを効率化する
  • Transformer-basedのアーキテクチャを linear Transformerで代替して、効率的なシステムに変更する

6. Video Recommendation System

YouTubeのような動画レコメンデーションシステムを構築する

Clarifying Requirements

論点

  • 動画レコメンデーションのビジネス目標はユーザーエンゲージメントを増加させることか
  • ユーザーが現在視聴してる動画か、ユーザーのホームページの動画に関連した動画をおすすめするのか
  • ユーザーは全世界にいて、多言語をサポートしてるか
  • ユーザーからの反応に基づいてデータセットを構築するのか
  • プレイリスト機能は要件に含まれるか
  • プラットフォーム上で利用可能な動画は何個か
  • レイテンシー要件はあるか

要件整理

  • ホームページの動画レコメンデーションシステムの構築
  • ビジネス目標はユーザーエンゲージメントの増加
  • ユーザーがホームページをロードするたびに、システムが関連動画をレコメンドする
  • ユーザーは世界中にいて動画は多言語対応
  • 100億動画が存在し、瞬時にレコメンドする必要がある

Frame the Problem as an ML Task

Defining the ML objective

  • MLの目標の候補
    • ユーザーのクリック数の最大化
      • clickbaitと呼ばれる動画をレコメンドする危険性がある
    • 動画視聴完了数の最大化
      • モデルが秒数が短い動画をレコメンドする危険性がある
    • 合計視聴時間の最大化
    • 関連動画数の最大化 (採用)
      • エンジニアやプロダクトマネージャーが決めたルールで関連性を測定可能
      • Clickや動画の半分視聴などのユーザー行動でラベリング可能

Specifying the system’s input and output

  • 入力 : ユーザー情報
  • 出力 : 関連スコアに基づいてランク付された動画のリスト

Choosing the right ML category

  • 一般的なパーソナライズレコメンデーションシステムの種類
    • Content-based filtering
      • Pros
        • 新しい動画を推薦できる
        • ユーザー独自の思考を捉えられる
      • Cons
        • ユーザーの新しい興味を見つけにくい
        • ドメイン知識が必要
    • Collaborative filtering
      • Pros
        • ドメイン知識が不要
        • ユーザーの新しい分野の興味を見つけやすい
        • 効率的
      • Cons
        • コールドスタート問題
        • ニッチな興味を扱えない
    • Hybrid filtering (採用)
      • Parallel hybrid filtering
      • Sequential hybrid filtering

Data Preparation

Data Engineering

  • 利用可能データ
    • Videos
    • Users
    • User-video interactions

Feature Engineering

  • Video features
    • VideoID
    • 動画秒数
    • 言語
    • タイトル・タグ
  • User features
    • ユーザーデモグラ情報
    • コンテキスト情報
    • ユーザーの行動ログ

Model Deployment

  • model
    • Matrix factorization
    • Two-tower neural network
  • Constructing the dataset
    • user特徴とvideo特徴のペアとラベルデータ
  • Choosing the loss function
    • cross-entropy

Evaluation

  • Offline metrics
    • Precision@k
    • mAP
    • Diversity
  • Online metrics
    • Click-through rate (CTR)
    • The number of completed videos
    • Total watch time
    • Explicit user feedback

Serving

  • prediction pipeline
    • Candidate generation
      • 数十億ある動画候補から、数千に候補を減らす
      • ユーザー特徴と動画embeddingから最近傍法で生成する
      • 流行、人気に基づく異なるcandidate generationを組み合わせる
    • Scoring
    • Re-ranking
  • Challenges of video recommendation systems
    • Serving speed
      • 軽量なモデルをcandidate generationに利用するのが有効
    • Precision
    • Diversity
      • 複数のcandidate generationを導入するのが有効
    • Cold-start problem
      • 新規ユーザー
        • two-tower neural networkを用いることでユーザー特徴からレコメンドが可能
      • 新規動画
    • Training scalability

Other Talking Points

  • レコメンドシステムのexploration-exploitationトレードオフについて
  • レコメンドシステムに発生する異なるタイプのバイアスについて
  • 倫理に関する重要な考慮事項
  • 季節性の考慮
  • 複数目的に対する最適化
  • dislikeのようなネガティブフィードバックの活用
  • ユーザーの検索履歴・視聴履歴のような動画の時系列情報の活用

7. Event Recommendation System

Eventbriteのようなパーソナライズしたイベントレコメンドを行うシステムの構築

Clarifying Requirements

論点

  • ビジネス目標はチケット売り上げを増加させること
  • イベントに加えてユーザーはホテルやレストランの予約もできるか
  • イベントは一時的に発生し期限のある事象
  • イベントの説明、金額幅、場所、日付、時刻情報を活用できる
  • アノテーション済みデータが利用可能か
  • ユーザーの現在位置を取得可能か
  • フレンド機能はあるか
  • ユーザーは他のユーザーを招待可能か
  • ユーザーはイベントへの招待を行えるか
  • イベントは有料 or 無料
  • ユーザー数とイベント数はどれくらいか
  • 1日あたり何人のアクティブユーザーがweb・app siteに訪れるか
  • Google Map APIのような外部APIを利用可能か

要件整理

  • ユーザーにパーソナライズ化されたイベントレコメンドを行うシステムの構築
  • イベントが終了するとユーザーは登録が不可能になる
  • ユーザーはフレンド追加とイベント招待が可能
  • 学習データはユーザーの行動履歴に基づいて作られる
  • 主目的はチケット売り上げを増加させること

Frame the Problem as an ML Task

Defining the ML objective

  • イベント登録数を最大化すること

Specifying the system’s input and output

  • 入力 : ユーザー情報
  • 出力 : ユーザーに関連する上位k個のイベントのリスト

Choosing the right ML category

  • レコメンド問題への対応一般的な方法
    • 人気イベントをレコメンドするシンプルなルールベース
      • baselineとして適切
    • content-based, collaborative filteringのようなEmbeddingモデル
    • ランキング問題に問題を置き換える(採用)
      • Learning to Rank (LTR)
      • クエリが与えられた時に、クエリに最も関連する最新のアイテムリストを並び替える
  • LTR
    • Pointwise LTR (採用)
      • 1つitemとQueryを入力としてスコアを出力
    • Pairwise LTR
      • 2つのitemとQueryを入力として、itemの並び替えを出力
    • Listwise LTR
      • 複数のitemとQueryを入力として、itemの並び替えを出力

Data Preparation

Data engineering

  • 利用可能データ
    • Users
    • Events
    • Friendship
    • Interactions

Feature engineering

  • Event-base recommendation
    • 従来のレコメンドよりイベントベースのレコメンドの方が困難
    • イベントの存在期間が短いため、過去のデータを多く取得できない
    • コールドスタート問題が課題
  • Location-related features
    • イベントにアクセス可能か
    • イベントがユーザーと同じ国・都市か
    • イベントまでの距離がユーザーの都合にあうか
  • Time-related features
    • イベントまでの時間はどれ位あるか
    • 日付と時刻がユーザーの都合にあうか
  • Social-related features
    • イベントの参加人数
    • フレンドの参加に関する特徴
    • 他の人に招待されたイベントかどうか
    • フレンドがホストのイベントかどうか
    • 同一ホストのイベントに過去に参加したことがあるか
  • User-related features
    • 年齢・性別
  • Event-related features
    • 参加費用
    • イベント説明が過去の参加イベントの説明と似ているか
      • イベント説明をTF-IDでベクトル化し、類似度を計算
      • 人間のホストが作成する文章のため、ノイズとなる可能性がある
  • potential talking points
    • バッチ・ストリーミング特徴
    • 特徴計算の効率化
    • Decay factorの利用
    • Embedding Learningの利用
    • ユーザー情報から作成した特徴に含まれるバイアス

Model Deployment

  • Model selection
    • Logistic regression
      • Pros
        • 推論が高速
        • 効率的な学習
        • データが線形分離可能な場合に有効
        • モデル解釈が容易
      • Cons
        • 非線形問題が解けない
        • 多重共線性の影響を受ける
    • Decision tree
      • Pros
        • 学習が高速
        • 推論が高速
        • データ準備が容易
        • モデル解釈が容易
      • Cons
        • 決定境界が最適ではない
        • 過学習しやすい
      • 決定木のロバスト性を向上させる方法
        • Bagging
        • Boosting
    • Gradient-boosted decision tree (GBDT)
      • Pros
        • データ準備が容易
        • バリアンスを減らせる
        • バイアスを減らせる
        • 構造化データに利用可能
      • Cons
        • 調整するハイパーパラメータが多い
        • 非構造化データに使用できない
        • 継続的学習には合わない
    • Neural network (採用)
      • Pros
        • 継続的学習が可能
        • 非構造化データに利用可能
        • 表現力が高い
      • Cons
        • 学習コストが高い
        • 入力データ品質が出力に大きな影響を及ぼす
        • 大規模な学習データが必要
        • モデルがブラックボックス
  • Constructing the dataset
    • ユーザー特徴とイベント特徴のペアに、過去に登録したかどうかでラベル付したデータを作成
    • 不均衡データとなるため、Focal lossやundersamplingを行う
  • Choosing the loss function
    • binary cross-entropy

Evaluation

  • Offlines metrics
    • Recall@k, Precision@k
    • MRR, nDCG, mAP
  • Online metrics
    • Click-through rate(CTR)
    • Conversion rate
    • Bookmark rate
    • Revenue lift

Serving

  • Online learning pipeline
    • イベントレコメンデーションはコールドスタート問題が起きるため継続的学習が必要
  • Prediction pipeline
    • Event filtering
      • 100万個のイベントから候補となるイベントをフィルターする
      • 位置情報やユーザー指定のフィルタを使用する
    • Ranking service
      • Raw Dataから動的に生成する特徴と、Feature Storeから取得した事前計算した特徴を組み合わせる

Other Talking Points

  • 生じうるバイアス
  • より表現力を高めるための特徴量の活用
  • レコメンドイベントの多様性と新規性を高めるにはどうすればよいか
  • プライバシーとセキュリティーの観点から考慮すべきこと
  • イベントホスト側とユーザー側の双方のニーズを満たすにはどうすればよいか
  • データセットを作成する際のdata leakageを防ぐ
  • モデル更新の最適な頻度を決める

8. Ad Click Prediction on Social Platforms

Google, Facebook, Instagramのような広告クリック予測システムを構築する

Clarifying Requirements

論点

  • ビジネス目標は売り上げを最大化すること
  • ユーザータイムラインに表示される広告のみを考慮し、各Clickが同じ売り上げを出す
  • 同じ広告を同一ユーザーに複数回表示するか
  • 広告を隠す、特定広告主をブロックする機能をサポートするか
  • 学習データは広告とユーザー行動に基づいて作成されるか
  • ユーザーのClickを正例としてラベル付するか
  • Clickが発生しなかった場合を負例としてラベル付するか
  • 継続的学習が必要か

要件整理

  • クリック予測システムを構築する
  • ビジネス目標は売り上げを最大化すること
  • 広告はユーザータイムラインのみに表示され、各Clickは同じ額の売り上げを発生させる
  • モデルを継続学習させる必要がある
  • 広告とユーザー行動に基づいて学習データが作成される

Frame the Problem as an ML Task

Defining the ML objective

  • 広告がクリックされるか予測する

Specifying the system’s input and output

  • 入力 : ユーザー情報
  • 出力 : クリック予測確率に基づいてランク付された広告リスト

Choosing the right ML category

  • pointwise Learning to Rank (LTR)
  • 単クラス分類

Data Preparation

Data engineering

  • 利用可能データ
    • Ads
    • Users
    • User-ad interactions

Feature engineering

  • Ad feature
    • IDs
    • image/video
    • Category, sub category
    • impression, click numbers
  • User feature
    • モグラ情報
    • コンテキスト情報
    • ユーザーの反応情報

Model Deployment

  • Model selection
    • 広告クリック予測システムで一般的に使われる方法
      • Logistic Regression
      • Feature crossing + logistic regression
      • Gradient boosted decision trees
      • Gradient boosted decision trees + logistic regression
      • Neural networks
      • Deep & Cross networks
      • Factorization Machines
      • Deep Factorization Machines
  • Constructing the dataset
    • Positive label
      • 広告表示からt秒後にclickされた場合
      • 広告表示からt秒後にclickされなかった場合
  • Choosing the loss function
    • cross-entropy

Evaluation

  • Offline metrics
    • cross-entropy
    • normalized cross-entropy
  • Online metrics
    • CTR
    • Conversion rate
    • Revenue lift
    • Hide rate

Serving

  • Data preparation pipeline
    • Batch feature computation
      • 静的な特徴を集計しFeature Storeに格納
    • Online feature computation
      • 動的に変化する特徴をリアルタイムで計算
  • Continual learning pipeline
    • 新しい学習データでfine tuningを行う
  • Prediction pipeline

Other Talking Points

  • data leakageを防ぐことの重要性
  • model calibrationの実施
  • FFMとFMの違い
  • XDeepFMとDeepFMの違い
  • 破滅的忘却とは何か、防ぐための一般的な手段とは

9. Similar Listing on Vacation Rental Platforms

Airbnbのような類似リスティングを提示するシステムの構築

リスティング : 掲載されている家や船などの宿泊施設全般

Clarifying Requirements

論点

  • ビジネス目標は予約数を増加させること
  • 類似性の定義
  • レコメンドリストはユーザーごとにパーソナライズするか
  • プラットフォーム上で利用可能なリスティングの数
  • 学習データをどのように作成するか
  • 新しい候補が類似リスティングに現れるまでの時間

要件整理

  • vacation rental platformsでの類似リスティング作成の設計
  • 入力はユーザーが現在見ている特定のリスティング、出力はユーザーが次にクリックしそうな類似リスティング
  • レコメンドリスティングはログイン・非ログインユーザーに対して同じものをだす
  • 500万リスティング存在し、新しいリスティングが1日後にレコメンドに含まれるようにする
  • ビジネス目標は予約数を増加させること

Frame the Problem as as ML Task

Defining the ML objective

  • ユーザーが現在見ているリスティングを元に次にユーザーがクリックしそうなリスティングを予測する

Specifying the system’s input and output

  • 入力 : ユーザーが現在見ているリスティング
  • 出力 : ユーザーがクリックする確率に元づいて並び替えられたリスティング

Choosing the right ML category

  • session-based recommendation systems
    • ユーザーが現在ブラウズしてるアイテムに基づいてレコメンドを行うこと
    • 良いレコメンドはユーザーの一般的な嗜好ではなく、現在の嗜好に基づいてる
    • 従来のレコメンドと比較して、ユーザーの嗜好が頻繁に変わる
    • リスティングのEmbedding Vectorを作成するモデルを学習する
    • Embedding空間の距離を類似度として計算

Data Preparation

Data engineering

  • 利用可能データ
    • Users
    • Listings
    • User-listing interaction

Feature engineering

  • search session
    • ブラウジング履歴
    • クリックされた一連のリスティングID
    • 最終的に予約されたリスティングIDを保持

Model Deployment

  • Model selection
    • shallow neural netowork
      • リスティングのEmbedding学習
    • Model training
      • リスティングを入力としてコンテクストに含まれるリスティング一覧を予測する
  • Constructing the dataset
    • negative sampling
      • Positive pairs
        • 近いembeddingを持つリスティングの組み
      • Negative pairs
        • 遠いembeddingを持つリスティングの組み
  • Choosing the loss function
    • cross-entropy

Evaluation

  • Offline metrics
    • The average rank of the eventually-booked listing
      • ランク付されたリスティングリストの内、最終的に予約されたリスティングの位置
  • Online metrics
    • CTR
    • Session book rate

Serving

  • Training pipeline
    • 新しいリスティングデータ・ユーザーの反応データでモデルをfine tuning
  • Indexing pipeline
    • 全てのリスティングのEmbeddingのIndexを作成
  • Prediction pipeline
    • Embedding fetcher service
      • モデル学習時に入力リスティングが含まれる場合
      • モデル学習時に入力リスティングが含まれない場合
    • Nearest neighbor service
    • Re-ranking service

Other Talking Point

  • 潜在的なバイアスは何か
  • session-based アプローチとrandom walkの比較
  • ユーザーの長期的な嗜好を活用したsession-basedレコメンドシステムの改善
  • 季節性をどのようにリスティングシステムに導入するか

10. Personalized News Feed

Facebook, Twitter, LinkedInのようなニュースフィードのパーソナライズシステムの構築

Clarifying Requirements

論点

  • ニュースフィードのパーソナライズの目的はユーザーのプラットフォームへの定着
  • ユーザーがタイムラインを読み込んだ時に、新しいポストを表示する
  • 投稿はテキスト・画像・動画の組み合わせ
  • ユーザーエンゲージメントを維持するには、最もエンゲージメントの高いコンテンツをタイムラインのトップに表示する
  • click, like, shareのような特定のエンゲージメントに最適化した方がいいか
  • プラットフォーム上での主要なユーザーリアクションは何か
  • システムのレイテンシ要件
  • 1日のアクティブユーザー数、1にのタイムライン更新回数

要件整理

  • パーソナライズしたユーザーフィードシステムの構築
  • ユーザーエンゲージメントに基づいて、見られていない投稿、見られていないコメントがある投稿のランク付を行う
  • 200ms以内
  • システムの目的はユーザーエンゲージメントの増加

Frame the problem as an ML task

Defining the ML objective

  • 候補
    • 滞在時間やクリックなどの暗黙的なユーザーリアクション数の最大化
    • likeやshareなどの明示的なユーザーリアクション数の最大化
    • 暗黙的と明示的なリアクションの重み付スコアの最大化(採用)

Specifying the system’s input and output

  • 入力 : ユーザー情報
  • 出力 : エンゲージメントスコアに基づいてランク付された見られていない or 見られていないコメントがある投稿のリスト

Choosing the right ML category

  • Pointwise Learning to Rank (LTR)
  • ユーザーと投稿の特徴を元に、複数の単クラス分類モデルを作成

Data Preparation

Data engineering

  • 利用可能データ
    • User
    • Posts
    • User-post interactions
    • Friendship

Feature engineering

  • Post features
    • Text content
    • Images or videos
    • Reactions
    • Hashtags
    • Post’s age
  • User features
    • モグラ情報
    • コンテキスト情報
    • ユーザー投稿履歴
    • 投稿へのメンション
  • User-author affinities
    • like, click, comment, share rate
    • 投稿主とユーザーのフレンド期間
    • 近しい友達・家族か

Model Deployment

  • Model selection
    • neural network
      • 非構造化データを扱える
      • カテゴリカル特徴を表現するEmbedding layerを使える
      • 事前学習済みのモデルでfine tuningを行える
    • architecture
      • N independent DNNs
      • A multi-task DNN
  • Model training
    • Constructing the dataset
      • likeのクラス分類用のデータセットでは、likeのリアクションがあった投稿のラベルを正例として、likeのリアクションがない投稿を負例として扱う
    • Choosing the loss function
      • combine task-specific loss
        • binary cross-entropy (classification task)
        • MAE, MSE, Huber loss (regression task)

Evaluation

  • Offline metrics
  • Online metrics
    • Click-through rate (CTR)
    • Reaction rate
    • Total time spent
    • User satisfaction rate found in a user survey

Serving

  • Data preparation pipeline
  • Prediction pipeline
    • Retrieval service
    • Ranking service
    • Re-ranking service

Other Talking Points

  • 口コミが広がるだろう投稿の扱い
  • 新規ユーザーに対するパーソナライズ
  • 潜在的なバイアスを緩和させる方法
  • 適切な再学習頻度

11. People You May Know

Facebook, LinkedIn, Twitterのような、共通の学校・友達・職場などの繋がりを持ちたいと思えるユーザーリスト(PYMK)を作成するシステムの構築

Clarifying Requirements

論点

  • PYMKの目的はユーザーに見込みのあるつながりを見つけてもらってネットワークを広げてもらうこと
  • つながりを考慮する上で最も重要な要素は学歴、職歴、ユーザーの社会的コンテキスト
  • フレンドであるとはお互いが友達申請状態にあることか
  • プラットフォーム上のユーザー数の合計、1日のアクティブユーザー数
  • ユーザーあたりの平均つながり数
  • ほとんどのユーザーのソーシャルグラフは安定していて、短期間では大きく変わらない

要件整理

  • LinkedInのようなPYMKの構築
  • 入力はユーザー情報、出力は見込みのあるつながりのリスト
  • システムのモチベーションはユーザーに新しいつながりを見つけてもらい、ネットワークを拡大してもらうこと
  • 10億ユーザーが存在し、ユーザーは平均1000のつながりを持つ

Frame the problem as an ML Task

Defining the ML objective

  • ユーザー間のつながり数を最大化する

Specifying the system’s input and output

  • 入力 : ユーザー情報
  • 出力 : ユーザーに関連するつながりのリスト

Choosing the right ML category

  • Pointwise LTR
    • PYMKをランキング問題と捉える
    • Graph構造の予測タスク
      • Graph-level prediction
      • Node-level prediction
      • Edge-level prediction
  • Edge prediction
    • グラフ情報を扱うモデル
    • 2つのNode間にEdgeが存在する確率を予測

Data Preparation

Data engineering

  • 使用可能データ
    • User
    • Connections
    • Interactions

Feature engineering

  • User features
    • モグラ情報
    • つながり数、フォロワー数、フォロー数、つながりリクエスト数
    • アカウント年齢
    • 受け取った反応数
  • User-user affinities
    • 学歴・職歴の親和性
    • 社会的な親和性

Model Deployment

  • Model selection
    • Graph Neural Network (GNN)
      • グラフを入力として扱える
      • Node embeddingを作成しNodeを数値表現
      • 2つのNode間のつながりは内積計算による類似性の測定によって表現
      • GNN-based architectures
        • GCN, GraphSAGEm GAT, GIT
  • Model training
    • Constructing the dataset
      1. 時刻tのグラフのスナップショットを作成
      2. グラフの初期ノード特徴、エッジ特徴を作成
      3. ラベリング

Evaluation

  • Offline metrics
  • Online metrics
    • 過去X日で送ったつながりリクエスト数
    • 過去X日で許可したつながりリクエスト数

Serving

  • Efficiency
    • 10億ユーザー全てを候補とすると計算量が膨大となるため、候補を絞る必要がある
    • Utilizing FoF
      • 推薦候補をフレンドのフレンドに限定する
    • Pre-compute PYMK
      • Online prediction
        • ホームページを更新した際にリアルタイムで見込みのあるつながりを計算する
      • Batch prediction
        • 事前に予測値を計算しDBに格納しておく
  • ML system design
    • PYMK generation pipeline
      • 全ユーザーのPYMKを生成し、DBに格納しておく
    • Prediction pipeline

Other Talking Points

  • Personalized random walkがレコメンドシステムの別候補として有効
  • 頻繁にログインするユーザーがレコメンドに現れやすいバイアスが存在する
  • ユーザーがレコメンドを無視した際のフィードバックをシステムに導入する
  • 遅れフィードバックの扱い