メインコンテンツへスキップ

第15講 最終課題

概要
#

学習データ,テストデータが与えられます. 学習データを用いて機械学習を行い,テストデータを用いて,成績を予測するプログラムを作成してください.

提出方法
#

  • Moodle
    • 〆切 2025-01-29 (Wed) 09:00

作成したプログラムのソースコードを提出してください. なお,そのソースコード中にコメントとして考察を記載してください.

利用するデータ
#

以下のデータはとある授業の成績データです. 学習データとテストデータは以下のリンクからダウンロードしてください.

両データ共に同じフォーマットで,ID,評価,成績,試験,レポート,レポート提出率,小テスト受験率の9つのカラムが含まれています. 評価は成績から算出されています.

課題内容
#

その際に,以下の点を自分自身で決め,決めた理由をプログラム中にコメントとして記載してください.

  • 利用するアルゴリズム
  • アルゴリズムに対するパラメータ
  • 学習データの前処理
    • 全てのデータを学習に用いる必要はありません.
    • どのデータを学習に用いるか,また,どのデータをテストに用いるかを決める理由を記載してください.
  • 目的変数は以下のどちらかを選択してください(この選択によりアルゴリズムが変わります).
    • 最終成績の点数
    • 評価(秀,優,良,可,不可,K)

加えて,予測結果がどの程度正しいのかを検証してください. 検証方法は自由ですが,なぜその検証方法を用いたのか,その検証方法で検証した結果どのようなことが考えられるのかを プログラム中にコメントとして記載してください.

💡 最終課題の評価の観点
#

試験,レポートが成績評価の大半を占めているため,この2つのデータが揃っていると高い精度で予測できるでしょう.そのため,予測精度が高いことだけでは,それほど高い評価につながりません.

それよりも,データを減らしたときに予測精度がどのように変化するかや,どれくらい少なければ予測に耐えうるかなどを検証すると高い評価につながります.

例えば,以下のようなものが考えられます.

  • 学習に用いる学生数を減らしたときの予測精度の変化を検証する,
  • 試験,レポートのどちらか一方を学習に用いずに予測して,精度を検証,考察する,
  • データの一部を欠損させ(削除して),欠損率と精度の関係を検証する,

ここに掲載する記事はまだありません。