「 CVPR 2024」にRist社員のChiche、堀川、小嵜が参加してまいりました

先日、Rist社員のChiche、堀川、小嵜が「Computer Vision and Pattern Recognition Conference 2024(以下:CVPR 2024)」に参加してまいりました。現地での開催内容や技術トレンド、全体を通じての感想などを、事後レポートにまとめてご紹介します。

CVPRは、コンピュータービジョン分野で最も権威のある国際会議の一つで、世界中から最新論文の知見や優秀な技術者・研究者たちが集まります。論文の投稿数および採択数は年々増えており、規模も大きくなっているとともに、採択の難易度が高い学会としても知られています。

◼︎直近3年間のCVPR論文の投稿数 / 採択数
2022年 8,161件/2,074件(採択率:25.41%)
2023年 9,155件/2,360件(採択率:25.75%)
2024年 11,532件/2,719件(採択率:23.55%)

◼︎年単位で見た論文の投稿数と採択数

引用:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf

     

CVPR 2024は、7月17日〜21日(現地時間)にかけてアメリカのシアトルで開催され、メインカンファレンス(論文発表)やワークショップ、チュートリアルなどが行われました。 今回、Rist社員のChicheと堀川が著者を務めた論文「Pre-training Vision Models with Mandelbulb Variations」が採択されており(論文採択についてのお知らせはこちら)、2名はメインカンファレンスおよびワークショップで本論文についての発表を行いました。

会場となったコンベンションセンター

     

会場内の様子

     

CVPR 2024は、前半日程(6/17〜18)にワークショップとチュートリアル、後半日程(6/19〜21)にメインカンファレンスという全体スケジュールで行われました。

興味深かった発表内容

Chiche
VAND 2.0: Visual Anomaly and Novelty Detection – 2nd Edition
初日に傍聴した外観異常・新規制検知タスクに関するワークショップで、最先端の手法が分かりやすく説明されており、刺激になりました。ワークショップ主催者が企画したコンペティションにおける2つのトラックの勝者手法の説明もあり、どれも独自性のある内容且つ強力な手法だと感じました。

Eclipse: Disambiguating Illumination and Materials using Unintended Shadows
スマートフォンやカメラなどで特定の物体を撮影する際に、事故的に発生する影の情報を利用して材料および照明環境の復元をより簡単にする(正則化する)手法が紹介されておりました。普通は望まれておらず、どうしても発生してしまう影を逆に利用してしまおうというアイデアに感銘を受けましたし、口頭発表もわかりやすかったです。

堀川
N=0: Learning Vision with Zero Visual Data
参加したワークショップの発表で、特に面白かった発表がこちらでした。 私たちの研究のモチベーションと同じく学習画像の生成に関する研究でしたが、とにかく手数が多くていろいろな実験を試されていることが分かり、非常に興味深かったです。

Efficient Homotopy Continuation for Solving Polynomial Systems in Computer Vision Applications
多項式による非線形方程式を解く話のチュートリアルもありました。コンピュータービジョンに関する学会でも、方程式を解くことにフォーカスしているグループがあるのが面白く、裾野の広さを実感できたのが良かったです。

小嵜
DUSt3R: Geometric 3D Vision Made Easy
Grounding Image Matching in 3D with MASt3R
入力画像ピクセルに対応する3D座標の 1-to-1 マッピング (Pointmap) を Regression 問題として解いています。2D Imagesのoverlapなしで、カメラ位置の推定ができる実験結果が話題になっていました。MASt3RはDUSt3Rの発展研究で、予定されていた内容に急遽追加するかたちで紹介されていました。DUSt3R のモデルに local features の抽出とマッチングが加わっています。

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
2D画像を3D上でマッチングする Mickey という手法の提案です。3D Keypoint の対応付けを行うため、微分可能な RANSAC である DSAC を用いて 3D keypoint の対応付けを学習しています。

技術トレンド

小嵜:今年のCVPRで個人的に感じたトレンドがいくつかあったので紹介します。

1、基盤モデル(事前学習モデル)の応用
すでに学習されている既存の基盤モデルやLLMを Freeze して、コンポーネントとして活用するという話が増えていました。例えば下記のような事例がありました。

・“RoMa: Robust Dense Feature Matching”
 DINOv2 を freeze して事前学習モデルとして活用
・“LISA: Reasoning Segmentation via Large Language Model”
 SAM と LLaVA を freeze して事前学習モデルとして活用
・“PseCo: Point, Segment and Count: A Generalized Framework for Object Counting”
 SAM と CLIP を freeze して事前学習モデルとして活用

2、ドメイン特化やタスク特化のデータセット構築
特定の分野に特化したデータセットを構築する話が増えていました。下記のように、複数のデータセットを組み合わせて強力な基盤モデルを作る、といったストーリーが増えていると感じました。

・MASt3r:3D Vision の基盤モデル。14 のデータセットの組み合わせにより訓練。
・BioCLIP (best student paper) : 3つのデータセットの組み合わせにより TreeOfLife-10M を構築して訓練。

網羅的には確認していませんが、病理分野のタスクなど、他分野においても同様のトレンドがありました。

     

Chicheと堀川の論文発表

Chicheと堀川は、18日のワークショップ(Representation Learning with Very Limited Images)と21日のメインカンファレンスで採択論文「Pre-training Vision Models with Mandelbulb Variations」の発表を行いました。

     

     

     

発表の聴講者が堀川に握手を求めるシーンもあり、対面だからこそ参加者同士で密なコミュニケーションや意見交換、質疑応答が交わされるシーンもありました。

論文の内容はこちらからご覧いただけます。

      

全体を通じてのコメント

Chiche:国際学会への参加は久しぶりでしたが、オフラインの参加者交流で得られる知見は多く、非常に良い刺激になりました。特にワークショップやチュートリアルでは興味深い内容が扱われており、有益な時間となりました。

同僚との晩御飯の時間やLIMITワークショップ後の懇親会では楽しく、且つ密度の高いお話ができ、誠に有益な時間でした。改めて同僚とLIMITワークショップ主催者の方々に、感謝の意を表させていただきます。

堀川:今回のCVPR2024参加を通じて、コンピュータービジョン分野全体のトレンドや雰囲気を知り、私たちの研究の位置づけも改めて実感することができました。CVPR参加の機会を作ってくれた論文共著者、先行研究者の方々に感謝いたします。ポスター発表は想定より反響があり、非常に刺激的な機会になりました。今後も対外発表を継続していきたいと思います。

小嵜:コンピュータービジョンの研究の変化スピードは凄まじく、学会中はとても良い刺激を得ることができました。特にワークショップではトピックの鮮度がとても高く、はやく帰国してデータに触りたい・検証したいと思わせてくれる話題に溢れていました。また偶然にも研究者の Kaggler との技術的な話題で盛り上がることがあり、大変勉強になりました。

     

学会以外のシアトルでの思い出

Chiche:学会が始まる前に、元メジャーリーガーのイチロー選手がマリナーズ時代にプレーしていたと思われるスタジアムを歩いて見に行ったのですが、その際に左膝を少し痛めてしまい、翌日以降の広い会場内での移動が辛かったです。(笑)写真はマリナーズの本拠地の T-Mobile Park 周辺で撮影したものです。

      

堀川:現地で見た路面バスや路面電車は、集電装置の方式によって架線が2本だったり1本だったりするのが珍しかったです。帰国後に知りましたが日本でも架線2本の方式は存在したようです。シアトル特有の生物の個体群が確認できたのも良かったです。写真の昆虫はおそらくナミテントウで、日本で見かけたものとは異なる模様が何種類か確認できて面白かったです。生物農薬として移入された可能性もあるため在来種かは分かりませんでしたが。

         

最後に
Ristは今後も社員のスキルアップや技術の向上につながる活動を支援し、そこで培った知見、発想をお客様にも還元していきます。 今回CVPRに参加されたChicheさん、堀川さん、小嵜さん、本当にお疲れ様でした!