職務経歴書

2026年4月5日現在山口敏弘

職務要約

データサイエンティストおよび機械学習エンジニアとして9年のキャリアを持ち、さまざまな事業課題を技術で解決してきました。特に推薦システムやそのMLOpsにおいて、設計から実装・評価までEnd-to-Endで主導した実績を有しています。

ビジネス課題の本質的解決を目的とし、推薦システムによるエンゲージメント向上やLLM/RAGを用いた業務プロセスの高度化など、最適な機械学習手法を選定・適用します。技術の先進性だけでなく、実運用におけるコスト対効果や安定性を重視した「実務で機能する機械学習システム」の構築を通じて、ビジネス価値の最大化に貢献します。

活かせる経験・知識・技術

得意分野

LLM/RAG: RAGパイプライン設計・精度評価基盤構築、LLMを活用した業務プロセス自動化
推薦システム・埋め込み技術: Two-Tower Architecture、メトリックラーニング、リアルタイム推論、近似近傍探索 (ANN)
MLOps/基盤構築: Vertex AI PipelinesやDatabricksを用いた学習・推論パイプラインの自動化
仕様駆動開発（SPEC駆動）: Markdownによる詳細仕様を先行作成し、AIコーディングツールを活用したコード生成ワークフローを確立。仕様と実装の差分を自動検出・修正するループにより、大規模移植・チーム開発での手戻りを最小化

技術スタック

LLM/AI: LangChain, LangGraph, Amazon Bedrock, LiteLLM, Ragas, LangFuse, DSPy
ML/DL: Python, PyTorch, TensorFlow, scikit-learn, Pandas, PySpark, LightGBM,XGBoost
Backend: Python (FastAPI, Flask)
Frontend: TypeScript, Next.js, React, Tailwind CSS
Infrastructure/Data: AWS, GCP, Azure, Databricks, BigQuery, Terraform, Docker

資格

ネットワークスペシャリスト
情報セキュリティ安全確保支援士試験合格

活動・登壇

MLOps勉強会登壇: 「推薦システムにおける継続的学習パイプラインの実装」
Databricks公式イベント登壇: 「Sparkを用いた大規模データ処理の最適化」
Zenn技術メモ: 検索×推薦統合の論文サーベイ（UniSAR/SIGIR 2024、UniCoRn/RecSys 2024 等）

プロダクト開発/サービス公開

shisapost（https://www.shisapost.com/）

期間: 2024年10月〜現在（継続運用中）
概要: ユーザーの関心に合わせてニュースを選別・分析する少人数チーム開発のキュレーションサービス。
技術的特徴: 業界ニュースの自動収集、ユーザーのビジネス文脈に基づくLLMによる影響度分析およびパーソナライズドメール配信。Next.jsおよびTypeScriptによるWebアプリケーション、Stripe決済およびGoogle Sheets API連携によるSaaS運用。
成果:
- 少人数チーム開発ながらStripe/Google Sheets連携を含む完全なSaaSとして稼働。
- インフラコストを最小化しつつ、実用的なニュース配信システムを構築。

職務経歴詳細

2025年07月~現在: フリーランス

LLMプラットフォーム開発（大手SaaS企業）
- 期間: 2026/01 - 現在
- 担当: フルスタックエンジニア
- 環境: TypeScript (Next.js, NestJS, tRPC, Prisma), Python (FastAPI, LiteLLM), GCP (Cloud Run, BigQuery), Terraform, Nx (Monorepo)
- 概要: AIエージェント・CRM連携・ドキュメント処理を統合したエンタープライズ向けSaaSプラットフォームの開発。約20名規模のプロジェクトにてフルスタックエンジニア兼AIエンジニアとして従事。
- 詳細:
  - tRPCによるフロントエンド・バックエンド間のエンドツーエンド型安全性の確保。API定義の変更を即座に型エラーとして検知する環境を構築し、大規模開発でのデバッグ工数を削減
  - エージェントワークフロー基盤上で100以上のエージェントツールをPython/FastAPIで実装。Pydanticによる厳格な入出力スキーマ定義でエージェントの推論精度と安全性を担保
  - RAGおよびMCPを活用した機能開発を推進
  - SPEC駆動開発の実践：Markdownによる詳細な技術仕様を先行作成し、AIコーディングツール（Cursor等）を最大限活用したコード生成により、開発スピードと設計品質を両立
Unityゲーム移植開発（Nintendo Switchタイトル）
- 期間: 2025/10 - 現在
- 担当: ゲーム開発エンジニア（個人開発 + AIエージェント群）
- 環境: Unity 6000.3, C#, Python, Claude Code, Linear (MCP統合), SpriteStudio 6
- 概要: サッカーマネジメントシミュレーションゲームのCocos2d-x (C++, 約82,000行) → Unity (C#) フルリライト移植。AIエージェントを開発の中核に据え、仕様策定・実装・テスト・品質保証の全工程をAI協調で遂行する実験的開発手法を設計・運用。マイルストーン請負。
- 規模: コミット311件、Linearチケット96件、仕様書1,391ファイル（約5ヶ月）
- 詳細:
  - 25種の専門AIエージェントによるTDD駆動パイプラインの設計: テスト作成（Red）→ 失敗確認 → 実装（Green）→ 成功確認 → 受入基準検証の5段階を自動遷移。手動レビュー前にAIが8項目の完了ゲートを強制チェックし、不完全な成果物の提出を構造的に防止
  - 非バイパス型品質保証フレームワーク: AIが品質チェックをスキップすることを構造的に不可能にするHook/Gate体系を設計。8種のGitフック（チケット番号強制、座標変換ツール使用強制、Prefabオーナーシップ検証等）、Anti-Sabotageチェック（プレースホルダUI、偽造証跡、部分的完了の自動検出・ブロック）、19の不可変ルールを定めた憲法ドキュメント（Constitution v1.8.0）で運用
  - SPEC駆動の仕様策定〜チケット管理の自動化: 18のスラッシュコマンドと11のスキルで、仕様策定からLinearチケットクローズまでを半自動化。SpecKitワークフロー（specify → plan → tasks → Linearチケット自動生成）により96チケットを1人で管理。仕様の移植漏れはspec-migration-detector → fixer → checkerの3フェーズで自動検出・修正
  - データパイプライン・ファーストの移植手法: 元ゲームの全数値を機械的に抽出・変換する10種のPythonツール（座標変換、レイアウト計算、AST抽出、C#コード生成、ハードコード監査等）を構築。Gitフックで座標の手計算を検出・ブロックし、マジックナンバー起因のバグを構造的に防止
  - マルチWorktreeによる並行開発: 9つのgit worktreeでモジュールごとに独立した開発環境を構築。Prefabオーナーシップをpre-commitフックで検証し、越境編集を防止
  - AIの行動ログから失敗パターンを知見として自動蓄積・再注入するInstinct Systemを活用し、同一ミスの再発を防止
企業間マッチングシステムにおけるバックエンド・データ基盤開発
- 期間: 2025/07〜2025/12
- 概要: 企業間マッチングシステムにおけるバックエンドおよびログ/データ分析基盤の開発
- 環境: AWS（Kinesis Firehose, Athena, CloudWatch, Lambda, S3）, Python, FastAPI
- 詳細:
  - FastAPIを用いたバックエンドAPIの改善
  - Kinesis FirehoseとAthenaを用いたログ収集・分析基盤の構築
  - CloudWatchによるエラー監視・通知体制の整備
  - ログクエリ設計・可視化を通じた運用改善支援
- 成果:
  - ログ/分析基盤を整備し、システム利用データを即座に分析可能な環境を実現
  - 障害対応時間を短縮し、運用効率を改善
  - エラー監視体制を強化し、安定稼働を実現

2024年: 業務委託

社内ナレッジ活用RAG導入プロジェクト PoC（PM・設計・実装）
- 期間: 2024/09 - 2024/11
- 担当: PM 兼リードエンジニア
- 環境: Amazon Bedrock (Claude 3 Sonnet/Haiku), LangChain, LangFuse, Ragas, Python, AWS (S3)
- 概要: 社内に蓄積された膨大なドキュメント（規定、マニュアル、議事録等）を検索・活用するためのRAGシステムの技術検証（PoC）および導入判断。
- 詳細:
  - 前処理と検索の高度化: 複雑なExcel/PDFを生成AIでMarkdown形式に正規化し、検索精度を向上。さらに業務ドメイン知識に基づいたメタデータタグを付与し、Bedrock Knowledge Baseでのフィルタリング検索を導入することでノイズを排除。
  - 評価基盤とオブザーバビリティの構築: Ragasによる定量評価（Faithfulness, Context Relevancy）とLangFuseによるトレーシングを導入し、回答精度の低下原因を即座に特定できるデバッグ環境を整備。
  - PMとしてのリード: 検証用のQAセット作成依頼などクライアントとの協働体制を構築(課題管理)。非技術者への期待値調整や、パイロット運用を見据えたPJ運用を行う。
  - 成果: 評価基盤を用いた定量評価により、Markdown化とメタデータ活用による精度の向上を実証。技術的妥当性を証明し、本番導入に向けた意思決定を迅速化。

2024年01月~2025年06月: HJホールディングス株式会社

TVODサービスの推薦システム構築
- 担当: データサイエンティスト / 機械学習エンジニア / リード
- 環境: Python, TensorFlow（TensorFlow Recommenders）PyTorch (PyTorch Lightning / PyTorch Similarity), Vertex AI (Pipelines / Experiments / Workbench), BigQuery, Dataflow, Digdag, GitLab CI/CD, Two-Tower Architecture, Metric Learning (Triplet Loss)
- 概要:
  - HJホールディングス株式会社が運営するVODサービスにおいて、TVOD（都度課金型ビデオ・オン・デマンド）作品の視聴促進を目的とした推薦システムを構築。
  - ユーザーの嗜好に合わせたパーソナライズ、および関連性の高いアイテム推薦により、コンバージョン（購入率）向上とユーザー体験の改善を実現。6名体制のプロジェクトにおいて唯一のMLエンジニアとして、技術選定から実装、ビジネスサイドとのKPI調整までを一貫してリード。
- 課題:
  1. 推薦精度の向上: 従来のアルゴリズムでは捉えきれないアイテム間の潜在的な類似性や、ユーザーの文脈（セッション内行動）の反映。
  2. コールドスタート問題の解消: 新規作品や視聴履歴の少ないユーザーへの対応。
  3. MLOps基盤の確立: 学習・推論・評価の自動化パイプラインの欠如。
  4. 定性的な妥当性: ジャンル間の自然な遷移など、違和感のない推薦結果の提供。
- 取り組み (Action):
  - Two-Tower Architectureによる推論設計: Two-Tower Architectureを用いてUser TowerとItem Towerを分離可能にし、内積計算のみでI2I/U2I推薦が可能なモデルを構築。Faiss等の近似探索（ANN）を用いた将来的なオンライン推論移行を見据え、推論レイテンシと精度を両立するアーキテクチャ基盤を確立。
  - Rankingモデル導入による順位の最適化: Retrievalで抽出した候補に対し、バイナリクロスエントロピー損失を用いたDNNモデルでCTRを予測しリランクを実施。単にジャンルが類似する作品ではなく、「そのユーザーが今購入する可能性が高い作品（例：視聴傾向に合致する準新作やトレンド作品）」がより上位に掲出されるよう順位を最適化し、詳細ページ遷移率を向上。
  - メトリックラーニング（Triplet Loss）の導入: PyTorch Similarityを用い、同一セッション内での連続視聴パターンからポジティブペアを抽出。Lift値を教師ラベルとして活用し、関連性の高いアイテムがベクトル空間上で近くなるよう最適化。
  - ジャンル概念を考慮した学習設計: 親ジャンル概念を導入し、特定のジャンルに偏りすぎず、かつ関連性の高いジャンル間を自然に推薦できるよう損失関数を調整。
  - Vertex AI Pipelinesを用いたMLOpsの実装: Spark/BigQueryを用いた日次特徴量生成（過去90日分のログ集計）から、Vertex AI上での学習・推論までを完全自動化。
  - データ分析に基づくKPI設計と合意形成: TVODユーザーが全体の1%未満というデータ希薄性の課題に対し、全ユーザー一律ではなく「直近1ヶ月の購入・訪問者」や「SVODからの新規流入」などセグメントを細分化した計測を主導。直接的な購入CVRに加え「詳細ページ遷移」を中間KPIとして合意形成し、有意差の出にくい環境下での評価体制を確立。
  - 定性評価とフィードバックループの構築: 推薦結果の妥当性をビジネス/エンジニアチーム全体で検証するため、Spreadsheetを用いたサンプル展開ワークフローを整備。定期的なレビュー会でフィードバック（違和感の検知や改善案）を収集し、チーム合意形成を経たモデルのみを本番展開する品質保証プロセスを確立。
  - 学習プロセスの高速化と実験管理: バッチサイズの最適化や精度寄与の低い特徴量の削減により、モデル学習時間を12時間から6時間へ半減。Time-based Splitによる厳格な評価フローを構築し、Vertex AI Experimentsにて日々のモデル性能をモニタリング。
- 成果 (Result):
  - 精度の向上: アイテム埋め込みの評価指標（Accuracy）において、0.91から0.96への改善を達成。
  - 定性的な改善: UMAP分析により、ジャンル間の類似性が適切に学習され、ユーザーにとって違和感のない「自然な関連作品」の提示が可能に。
  - 運用負荷の軽減: Vertex AI PipelinesとDigdagによる定期実行ジョブ構築により、モデル再学習・推論デプロイの手動運用工数を削減。
  - ビジネスインパクト: A/Bテストにて、従来手法と比較してCTRおよび視聴時間（Completion Rate）の向上を確認。

2021年12月~2022年03月: EYストラテジー・アンド・コンサルティング株式会社

データ駆動型事業改善コンサルティング
- 担当: データサイエンティスト / データアナリスト
- 環境: Python, Elasticsearch, Kibana, Pandas, scikit-learn
- 概要: 大手クライアントのビジネス課題に対し、データの統計分析と可視化を通じて解決策を提示。
- 詳細:
  - ログデータのリアルタイム分析: Elasticsearch/Kibanaを活用し、非構造化ログデータからKPIに関するインサイトを抽出するダッシュボードを構築。
  - 統計的因果推論による施策評価: 単なる集計に留まらず、scikit-learn等を用いた因果推論を行い、施策のビジネスインパクトを定量化。
  - 意思決定支援: 分析結果を経営層向けに可視化し、データに基づく迅速な意思決定プロセスを確立。

2021年06月~2021年12月: 株式会社JMDC

医療データ利活用プラットフォームの開発
- 担当: バックエンドエンジニア
- 環境: AWS (Step Functions, Lambda, KMS), Python, Terraform
- 概要: 保険審査業務の自動化および製薬向け分析レポート基盤の構築。
- 実績:
  - データパイプライン構築: AWS Step Functionsを用いたサーバーレス処理により、医療情報の照合作業リードタイムを数日から数時間へ短縮。
  - セキュリティ実装: AWS KMSを用いた厳格な暗号化設計により、機密性の高い医療データの安全な取り扱いを実現。

2019年08月~2021年05月: 株式会社日本経済新聞社（嘱託契約）

ニュースアプリのパーソナライズ基盤開発およびMLOps推進
- 担当: データ基盤エンジニア / データサイエンティスト
- 環境: Databricks, Spark (PySpark/Scala), Python, AWS, GCP, MLFlow, BERT, Golang
- 詳細:
  - データ基盤の統合: Databricks (Spark) を導入し、数百万ユーザーのアクセスログを処理するデータ基盤を構築。唯一のML担当として、基盤選定から実装までを単独で主導。
  - ハイブリッド推薦アルゴリズムの開発: 従来の協調フィルタリングに加え、BERTを用いた記事のセマンティック（意味）分析を導入。ユーザーの閲覧文脈（Context）を考慮した推薦を実現し、CTRを改善。
  - リアルタイム推論基盤: Spark StreamingとDynamoDBを用いた視聴履歴のリアルタイム同期機構を構築。推論層にはAWS Lambdaを採用し、視聴アイテムの埋め込みベクトル平均を用いたユーザーベクトル生成と内積計算により、高トラフィック下でも低レイテンシなオンライン推論を実現。
  - MLOpsの確立: MLFlow活用による実験管理とデプロイパイプラインの自動化を行い、モデル改善サイクルを短縮。

2017年04月~2019年01月: 株式会社グリッド

自社DLフレームワーク（ReNom）開発およびプラント制御の強化学習プロジェクト
- 担当: 機械学習エンジニア / データエンジニア
- 環境: Python, Flask, Vue.js, MQTT, VGG, VAE, SSG, 強化学習
- 概要: 自社開発ディープラーニングフレームワーク（ReNom）の機能拡張、および産業用プラントの最適化を目指した強化学習プロジェクトの基盤構築に従事。
- 詳細:
  - 論文ベースのアルゴリズム実装: VGG, VAE, SSDなどのアルゴリズムを論文から実装し、ライブラリのモジュールとして製品化。
  - リアルタイム強化学習基盤: プラント制御のため、MQTTを用いたIoTデータ収集パイプラインを設計・構築。
  - 可視化ダッシュボード: Flask/Vue.jsを用いて、学習状態や制御シミュレーションの結果をリアルタイムに可視化する環境を整備。
  - 成果: 自社ライブラリの機能拡充により外観検査案件への対応力を強化し、物理プラント制御におけるAI適用の実証に成功。

その他職務経歴

株式会社aiforce solutions (2019/02-2019/07): AI教育プラットフォーム開発および商社向けデータ分析コンサルティングに従事。
株式会社Cuon (2016/01-2017/03): WebエンジニアとしてRuby on Rails/PHPを用いたスタートアップ向けMVP開発に従事。
株式会社APコミュニケーションズ (2014/05-2015/12): Windows/Linuxサーバーのインフラ運用・保守およびPowerShellによる運用自動化を担当。
日本通信株式会社 (2013/04-2014/04): LAMP構成によるサービスサイトの設計・構築（キャリア初期の経験）。