2022年8月31日〜2022年11月30日にかけて行われたKaggleコンペティション「Feedback Prize – English Language Learning」にて、Rist所属のKaggle Grandmaster 蛸井がソロで、Kaggle Masterの神戸の参加するチームがそれぞれ金メダルを獲得しました。
本コンペティションは英語学習者によって書かれたエッセイに対し、6つの指標でスコア予測するタスクです。6つの指標はcohesion, syntax, vocabulary, phraseology, grammar, conventionsで1.0~5.0の範囲でスコアづけする必要があり、良いエッセイほど大きな値のスコアとなっているデータでした。
学習データは約3900件と少なく、少量データからロバストに学習することと、精度を出すことが要求されたコンペティションになっていることが特徴的でした。
蛸井コメント
今回のコンペでは、public scoreとprivate scoreが相関してない可能性があったので、public scoreを上げていくsubmissionだけでなく、CVを上げていくsubmissionの2つを同時並行で作成していきました。結果としてCVを上げていったsubmissionがprivate bestのsubmissionで、gold獲得に繋がりました。
一部の少数データだけの評価(コンペでいうところのpublic score)のみを見ていくのではなく、より信頼できそうな評価(コンペでいうところのCV)も見ていきながら精度改善していく重要性を改めて認識しました。
神戸コメント
今回のコンペではAWPという敵対性攻撃の手法を使うことでロバストなモデルを作成しました。また、幅広いTransformerモデルを使ったことでアンサンブルの多様性を上げるようにしたり、 後処理で最終的な予測値結果の値を最適化をすることでスコア改善しました。
逆に苦労した点としては、学習データが少なかったため、同じような設定であってもモデルの学習が安定しないことがあった点や、最終的な順位変動が大きいコンペと思われたため、順位変動しないようなロバストな解法を作る必要がありました。
様々な英語のTransformerモデルを試すことができ、どういったハイパーパラメータであれば学習が上手くいくか学びがありました。AWPという敵対性攻撃の手法についても学びもあったので、ロバストな機械学習手法についても今後活用していきたいと考えています。また、自動採点に関連したソリューションに応用できると考えていますので、機会があれば教育業界などの領域に貢献していきたいです。
今回のコンペティションの結果については こちら からご確認いただけます。
Ristでは今後もKaggleチームを中心に様々なコンペに積極的に参加し、技術力の向上を図り、お客様の課題解決に貢献してまいります。
* 当サイトに記載する会社名、ロゴ、システム名、商品名、ブランド名などは、各社の商号、登録商標、または商標です