AIでデータを活用したいけれど、どの分析手法を選べばいいかわからない。
そんな方にまず知ってほしいのがロジスティック回帰分析です。
この手法は、結果が「はい/いいえ」「購入する/しない」といった二択の問題を確率で予測します。
たとえば、次のような場面で役立ちます。
- 顧客が商品を購入する確率
- メールが開封される確率
- 従業員が離職する確率
一見専門的に見えますが、基本の考え方さえつかめばExcelやPythonでも簡単に再現できるのが特徴です。この記事では、ロジスティック回帰を「実務で使えるレベル」で理解できるように整理します。
📖この記事のポイント
- ロジスティック回帰は「はい/いいえ」を確率で分類する手法
- 線形回帰との違いは、出力を0〜1に変換するシグモイド関数を使う点
- ExcelやPythonで簡単に実装可能で、実務でもすぐ試せる
- 結果は「係数 → オッズ比 → 確率」で読み解くと理解しやすい
- 評価指標(Precision・Recall・F1・AUC)を目的に合わせて選ぶことが重要
- しきい値の設定が成果率とコストを左右する
- 不均衡データや外れ値への対処が精度を安定させるポイント
- ロジスティック回帰は、AIを「判断に活かす」ための第一歩となる分析手法
- たった2時間の無料セミナーで会社に依存しない働き方&AIスキルを身につけられる!
- 今すぐ申し込めば、すぐに月収10万円UPを目指すための超有料級の12大特典も無料でもらえる!
\ 累計受講者10万人突破 /
無料特典を今すぐ受け取るロジスティック回帰とは ― 確率で分類する仕組み
ロジスティック回帰分析は、「0か1か」の結果を確率で予測する教師あり学習の一種です。線形回帰のような直線ではなく、シグモイド関数(S字カーブ)を使って0〜1の範囲に出力を変換します。
シグモイド関数のイメージ
確率 ↑
1.0 | ●
| ●
0.5 | ●
| ●
0.0 |●_________________→ 入力値
入力が大きくなるほど確率が1に近づき、小さくなると0に近づく。
この仕組みにより、確率として分類結果を読むことができるのがポイントです。
線形回帰との違い
| 比較項目 | 線形回帰 | ロジスティック回帰 |
|---|---|---|
| 出力 | -∞〜+∞の連続値 | 0〜1の確率 |
| 目的 | 予測(数値) | 分類(確率) |
| 関数形 | 直線 | S字カーブ(シグモイド) |
| 主な用途 | 売上・価格予測 | 離反・成約予測・不正検知 |
オッズ比で影響の強さを読む
モデルの出力結果には「係数(β)」が含まれます。
ただし係数だけでは直感的に理解しづらいため、オッズ比(exp(β))を使うと意味が明確になります。
| 変数 | 係数 | オッズ比 | 解釈 |
|---|---|---|---|
| 年齢 | 0.7 | 2.01 | 1歳上がると確率約2倍 |
| 価格感度 | -0.5 | 0.61 | 感度が高いほど確率40%減 |
オッズ比が1より大きいほど、結果が1になる確率を高める方向です。
実務での使いどころと前提条件
ロジスティック回帰は、二値分類モデルとして最も実務で使いやすい手法の一つです。
代表的な適用シーンは次の通りです。
- 顧客の購買/非購買を予測
- メール開封率の向上施策検証
- 離職・不正行為などの検知
使用前に確認すべき前提条件
- 関係性がおおむね線形であること
- 特徴量同士に強い相関(共線性)がないこと
- 十分なサンプル数(1変数あたり10〜20件)があること
- 外れ値や欠損値が処理されていること
非線形関係が強い場合は、決定木やランダムフォレストなど別の分類手法を使うのが良いです。
Excel/Pythonで最短実装する
ここでは、まず動かして確率を確認するための最短ステップを紹介します。
コードを理解するより、確率がどう出るかを見ることが大切です。
Excelでの手順
- [データ] → [分析ツール] → [回帰分析]
- 「入力Y範囲」に目的変数(0/1)、「入力X範囲」に説明変数を指定
- 出力結果の「係数」を確認
=EXP (係数セル)でオッズ比を算出
ポイント
- カテゴリ変数は0/1化する
- 標準化(平均0、分散1)で安定性が増す
- Googleスプレッドシートでは「XLMiner Analysis ToolPak」でも実行可
Python最小コード(コメント付き)
# ライブラリ読み込み
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, f1_score
# データ準備
X = df[['age', 'income', 'visits']] # 説明変数
y = df['purchase'] # 目的変数(0 or 1)
# データ分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# モデル作成・学習
model = LogisticRegression(class_weight='balanced', max_iter=1000)
model.fit(X_train, y_train)
# 予測確率と分類結果
proba = model.predict_proba(X_test)[:,1]
pred = (proba >= 0.5).astype(int)
# 評価指標
print("AUC:", roc_auc_score(y_test, proba))
print("F1:", f1_score(y_test, pred))
覚えておくとよい点
class_weight='balanced'で不均衡データに対応predict_proba()で確率を取得- しきい値を変更して、Recall/Precisionのバランスを調整可能
結果の読み方と判断の型
ここからは、出力結果をどう読み、どう意思決定に使うかを見ていきます。
読み方の流れ(型)
- 係数を確認(プラスは確率を高め、マイナスは下げる)
exp(β)でオッズ比に変換- 確率に変換し、KPI(成約率・離反率など)に置き換えて解釈
例:「商談1回増で成約確率が2倍」→ 営業リソース配分の判断に活かす、など。
評価指標でモデルを点検する
| 指標 | 意味 | 見るポイント |
|---|---|---|
| Precision | 予測1の中で正解だった割合 | 当たりの精度 |
| Recall | 実際1の中で拾えた割合 | 見逃し防止 |
| F1スコア | PrecisionとRecallの調和平均 | 実務で使いやすい |
| ROC-AUC | 全体の識別性能 | モデル比較に有効 |
混同行列イメージ
| 実際\予測 | 予測1(陽性と判定) | 予測0(陰性と判定) |
|---|---|---|
| 実際1(陽性) | TP(真陽性)=正しく1と予測 | FN(偽陰性)=見逃し |
| 実際0(陰性) | FP(偽陽性)=誤検知 | TN(真陰性)=正しく0と予測 |
Accuracy(正解率)は偏りの強いデータでは誤解を招きます。
その場合、F1やRecallを優先して評価するのがポイントです。
しきい値調整の考え方
| モデルの目的 | 重視する指標 | 推奨しきい値 |
|---|---|---|
| 不正検知 | Recall | 0.3〜0.4 |
| 離反予測 | Precision | 0.6〜0.7 |
| 一般分類 | F1/AUC | 0.5前後 |
しきい値を動かすことが、ロジスティック回帰を現場で使う最大のコツです。
ミニケース:営業リストでの活用例
| 変数 | 係数 | オッズ比 | 解釈 |
|---|---|---|---|
| 商談回数 | 0.8 | 2.22 | 1回増で成約確率2倍 |
| 提案価格 | -0.6 | 0.55 | 高くなるほど確率45%減 |
| 年齢 | 0.3 | 1.35 | 1歳上昇で確率1.3倍 |
営業への活用例
- 商談3回未満の顧客を優先フォロー
- 提案価格が高い案件を重点的に再見直し
しきい値を変えたときのKPI変化
| しきい値 | 見込み客数 | 成約率 |
|---|---|---|
| 0.3 | 350 | 30% |
| 0.5 | 200 | 45% |
| 0.7 | 100 | 60% |
確率をどこで線引きするかが、成果率とコストを左右する大切な設計です。
よくある質問(FAQ)
Q1. オッズと確率の違いは?
確率は「1になる割合」、オッズは「確率/(1−確率)」
確率0.8 → オッズ4(4倍起こりやすい)です。
Q2. 不均衡データでAccuracyが高いのに精度が低いのはなぜ?
大多数を0と予測してもAccuracyは高く見えるため。
PrecisionやRecallなど他の指標で確認することがポイントです。
Q3. 標準化は必須ですか?
スケールの異なる変数を使うと学習が不安定になるため、標準化は有効です。
Q4. AUCとF1はどちらを優先すべき?
不均衡が強い場合はF1、バランスが取れている場合はAUCを確認するとよいです。
Q5. しきい値は0.5で固定すべきですか?
いいえ。誤判定コストに応じて最適なしきい値を決めるのが実務的です。
まとめ
ロジスティック回帰分析は、結果を確率として読み取れる最も実務的な分類モデルです。
数式よりも、「どう使うか」「どう判断に変えるか」が理解のカギです。
本記事のポイント
- 確率で分類する仕組みを理解する
- 係数 → オッズ比 → 確率 → 意思決定の流れをつかむ
- しきい値を目的に応じて柔軟に変える
ロジスティック回帰を理解することは、AIを判断に使う第一歩です。
確率を読めるようになると、データ分析が納得できる判断に変わります。
romptn ai厳選のおすすめ無料AIセミナーでは、AIの勉強法に不安を感じている方に向けた内容でオンラインセミナーを開催しています。
AIを使った副業の始め方や、収入を得るまでのロードマップについて解説しているほか、受講者の方には、ここでしか手に入らないおすすめのプロンプト集などの特典もプレゼント中です。
AIについて効率的に学ぶ方法や、業務での活用に関心がある方は、ぜひご参加ください。
\累計受講者10万人突破/




