英文名 | Text mining | |
---|---|---|
科目概要 | データサイエンス学科3年前期、3群科目、選択、講義、1単位 | |
科目責任者 | 河野 信 | |
担当者 | (※は実務経験のある教員) 河野 信 | |
講義室 |
科目 | 教科及び教科の指導法に関する科目(高等学校 情報) |
---|---|
各科目に含めることが必要な事項 |
|
生命科学系においても論文や電子カルテなど文章(自然文)を扱うことも多い。この講義では、大量の文章をコンピュータ上で扱い、知識を抽出するための手法について学ぶ。
文章を解析する方法として形態素解析から始め、コンピュータ上での文章の表現方法、最新の人工知能への活用について講義する。
パワーポイントや板書により講義を行いながら、自分のPCで実際に解析を行う。また適宜課題を提出し、その解答を示すことにより知識の定着を図る。
課題に関する模範解答を作成し、受講者全員に配布する。また、講義に関する質問はメールや対面で対応するとともに、重要な質問に対しては受講者全員で共有する。
DP4、DP5
回 | 項目 | 内容 | 担当者 | 日時 |
---|---|---|---|---|
1 | テキストマイニングとは | テキストマイニング(自然言語処理)の歴史や最新の応用例まで、どのような場面でどのように利用されているかについて紹介する | 河野 信 | 4/9③ |
2 | 形態素解析 | 形態素解析(単語の分割と品詞の特定)の説明と、形態素解析を実行するツール(MeCab等)について紹介し、形態素解析を実行してみる | 河野 信 | 4/16③ |
3 | 文章の行列表現 | 単語文章行列と重み付き表現(TF-IDF: Term Frequency – Inverse Document Frequency)について紹介し、文章を単語文章行列に変換してみる | 河野 信 | 4/23③ |
4 | 構文解析 | 単語間の係り受け関係や文法上の関係を解析する方法について紹介し、構文解析を実行してみる | 河野 信 | 5/7③ |
5 | 文章構造の可視化 | ワードクラウドやネットワークグラフなど、テキストマイニングの結果を可視化する方法について紹介し、文章情報を可視化してみる | 河野 信 | 5/14③ |
6 | トピックモデル | テキストマイニングの応用として、文章の主題を推測するトピックモデルについて紹介し、文章の主題について推測してみる | 河野 信 | 5/21③ |
7 | 分散表現 | Word2vecなど自然言語を機械学習に応用する際の表現方法について紹介し、文章を分散表現に変換してみる | 河野 信 | 5/28③ |
8 | 人工知能への応用 | BERT (Bidirectional Encoder Representation from Transformer), GPT-3 (Generative Pre-trained Transformer 3)など、自然言語処理に関する人工知能について紹介し、どのようなものか体験してみる | 河野 信 | 6/4③ |
テキストマイニングの手法について理解し、ツールを使った文章の解析ができる。
講義内での課題(40%)と期末レポート(60%)の結果から総合的に評価する。
【講義時間外に必要な学修時間:29時間】
予習:講義中に事前に指定する講義内容のプリントを読み、疑問点を明らかにしておくこと。
復習:講義中に出題する課題について解答を作成し、講義後に配布する模範解答と比較・検討する。
【科目ナンバリング:FU301-MT03】
【関連科目:アルゴリズム、人工知能・機械学習入門】
種別 | 書名 | 著者・編者 | 発行所 |
---|---|---|---|
教科書 | (なし) | ||
参考書 | Rによるテキストマイニング入門 第2版 | 石田基広 | 森北出版 |
参考書 | 実践Rによるテキストマイニング入門 | 石田基広 | 森北出版 |