DEIM2023 第15回データ工学と情報マネジメントに関するフォーラム

スケジュール

日時	チュートリアル講演
3月6日 9:00-12:00	-	-	-	T1
3月8日 13:00-14:30	T2	T3	T4	T1(おかわり)
3月8日 14:45-16:15	T5	T6	T4	T1(おかわり)

3月6日 9:00-12:00

T1: 継続学習に関する最新動向 (登壇は英語で行います)

講演者	Prof. Bing Liu, Zixuan Ke, Gyuhak Kim (イリノイ大学シカゴ校) 小西達也 (KDDI総合研究所)
時間	180分
開催場所	オンライン
概要	機械学習が扱うデータ・タスクが多様化するなかで、1つのモデルで多様なデータ・タスクに自律的に適応することを目指す継続学習が注目を集めている。本チュートリアルでは継続学習の方向性、技術詳細について解説する。
発表スライド	Lifelong and Continual Learning

※登壇者都合（時差）により、一般発表セッションと並行して開催し、チュートリアル開催時間におかわりセッション開催

3月8日 13:00-14:30

T2: 株価分析のための時系列データクラスタリング入門

講演者	白田由香利（学習院大学経済学部経営学科教授）
時間	90分
開催場所	現地
概要	株価変動分析においても機械学習の時系列データクラスタリング手法が広く使われている．代表な距離定義はk-Shape法のSBD，及びDTWなどであるが，これらは入力データの標準化を前提とするので，重要な分散(リスク)情報を捨て去ってしまうという問題がある．株価分析においては，現在も，1952年にハリー・マーコウィッツが創案した「収益率の平均 (平均リターン) とリスク(リターンの標準偏差)の散布図」による分析法が広く使われている．この手法ではリスク情報を捨てずに用いているが，より詳細な変動パターン(V字回復，Ｓ字型など)を知るためには，機械学習クラスタリングが必要となる．しかし，例えば，テスラやインドIT企業の株価のように成長率が大きい銘柄の場合，k-Shape法では分散情報が除去されてしまい分析目的に合致しない．そこで我々はAmplitude-based clustering法という，分散情報の変動パターンを解析する新アルゴリズムを開発した．現在我々は，第1段階でAmplitude-based clusteringを行い，伸び幅とパターンによって荒く分類し，第2段階で詳細を分析したいクラスターに対してk-Shape法を行うという二刀流のアプローチをとっている．次元圧縮としてはUMAPを使っている．本講義では，マーコウィッツの散布図の作り方から説明を始め，上記二刀流の手法による分析方法を示す．クラスタリング結果についてUMAP上で考察するプロセスも解説する．事例として，世界の製造業及び2022年のＵＳ企業，インド企業などの株価分析結果を示す．全編グラフィクスの多用により，見るだけで違いが分かるようにする．
チュートリアル論文	株価分析のための時系列クラスタリング入門（pdf）
動画

T3: グラフ深層学習のすゝめ。

講演者	前川政司（大阪大学）、佐々木勇和（大阪大学）
時間	90分
開催場所	現地
概要	グラフは複雑な関係性を記述できる表現であり、例えば自然言語や画像もシーケンスやグリッドとして表現できる。自然言語や画像の分野と同様、深層学習手法がグラフに対しても高精度な分析が可能であり、近年大きな注目を集めている。本チュートリアルでは、グラフ研究の面白さを伝え、多くの学生にグラフ深層学習を浸透させることを目的とする。最初に初学者に向けてグラフの重要性の解説、および代表的なタスクをノードレベル、リンクレベル、グラフレベルに分けて紹介する。次にグラフ深層学習の基礎概念となるグラフ畳込みについて直感的な説明を行い、既存の深層学習との類似点・相違点について解説する。キーとなる手法を例として分野の動向を解説した後に、発表者が考える今後の展望を述べる。最後に、発表者グループが開発したグラフ深層学習を学ぶことを目的としたwebサイト（"言語処理100本ノック"的なもの）について紹介する。
動画

3月8日 13:00-16:15

T4: NLPとVision-and-Languageの基礎・最新動向

講演者	西田京介（NTT人間情報研究所）斉藤いつみ（NTT人間情報研究所）西田光甫（NTT人間情報研究所）田中涼太（NTT人間情報研究所）
時間	180分
開催場所	現地
概要	BERTやGPT-3に代表される，巨大なニューラルネットワークを大量のテキストで自己教師あり学習した汎用言語モデルの登場により，人工知能による自然言語処理（Natural Language Processing; NLP）の水準は大きく発展した．既に一部のベンチマークタスクでは人工知能が人間のスコアを凌駕するまでに成長している．こうした大量のデータでニューラルネットワークを学習して汎用の基盤モデルを作成するアプローチは，Vision-and-Languageと呼ばれる視覚情報と言語情報を組合せた課題解決を行う研究分野にも導入され，画像に関する検索や質問応答，テキストからの画像生成，文書画像の理解など様々なタスクで大きな成果を挙げている．本チュートリアルでは，NLPおよびVision-and-Language分野のそれぞれについて，汎用基盤モデルを中心に基礎から最新動向まで幅広く紹介する．
発表スライド	NLPとVision-and-Languageの基礎・最新動向(1) NLPとVision-and-Languageの基礎・最新動向(2)

T1(おかわり): 継続学習に関する最新動向

講演者	Prof. Bing Liu, Zixuan Ke, Gyuhak Kim (イリノイ大学シカゴ校) 小西達也 (KDDI総合研究所)
時間	180分
開催場所	オンライン
概要	機械学習が扱うデータ・タスクが多様化するなかで、1つのモデルで多様なデータ・タスクに自律的に適応することを目指す継続学習が注目を集めている。本チュートリアルでは継続学習の方向性、技術詳細について解説する。

3月8日 14:45-16:15

T5: 平均値の差の検定と効果量: 実験結果の適切な報告の仕方

講演者	酒井哲也（早稲田大学）
時間	90分
開催場所	現地
概要	復習: t検定 [15分] ギネスビールの社員の話対応のあるデータのt検定対応のないデータのt検定 (Student, Welch) 「統計的に有意である」と言うだけでいいか？ [15分] 統計的検定の弊害効果量統計的検定に代わるアプローチ三つ以上のシステムの比較においてt検定を繰り返していいか？ [15分] ワインを飲みすぎた客の話全体としての第一種の誤り Bonferroni補正はちょっと古い Tukey HSD検定 [15分] 対応のあるデータのTukey HSD検定対応のないデータのTukey HSD検定ランダム化検定とランダム化Tukey HSD検定実験結果の適切な報告の仕方 [5分] 2つのシステムの比較 3つ以上のシステムの比較さらにレベルアップ [10分] 有意水準、検出力、効果量、サンプルサイズの関係今やったばかりのt検定の検出力は? 今後のサンプルサイズは? Q&A・バッファ [15分]
発表スライド	平均値の差の検定と効果量：実験結果の適切な報告の仕方
動画

T6: 差分プライバシーによるクエリ処理の基本・実践・最前線

講演者	高橋翼 (LINE株式会社) 長谷川聡 (LINE株式会社)
時間	90分
開催場所	現地
概要	差分プライバシーは、データベースから統計的な出力を開示する際のプライバシー基準であり、米国国政調査やビッグテックを中心に実用化が進められている。本チュートリアルでは、データベースへのクエリ処理を、差分プライバシーによって保護しながら実現する方法について紹介する。まず、差分プライバシーの基本事項を平易に導入することから始め、基本的な差分プライバシーのメカニズムであるラプラスメカニズムの概念と実装方法について紹介する。続いて、複数回のクエリ応答を実現するためのプライバシー合成定理について述べる。さらに、論文等では語られることが少ない、クエリ応答システムを実現する上で考慮すべき観点についても紹介する。最後に、差分プライバシー下でのクエリ応答に関連する最新の研究の動向について紹介する。
発表スライド	差分プライバシーによるクエリ処理の基本・実践・最前線 (Speaker Deck)
録画