Author: Sannko

AI班の記録(2017/03/06)

今回は3人が発表しました。また、商学部1年の方が1名見学に来てくれました!

ai20170306

U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介

論文はこちら

Image-to-ImageのCNNを改良したU-Netの提案論文。生物分野ではデータが小さいことが良くあり、これを克服することを目的として提案されました。現在は様々な分野に適用されています。


TDAの概要と適用・有用性

TDA(Topological Data Analysis・位相的データ解析)の概要と、位相幾何学によってデータ解析や機械学習がどのような恩恵を受けるのかを紹介しました。


Depth Creates No Bad Local Minimaの紹介

論文はこちら

ニューラルネットワークの損失関数の非凸性を生む「深さ」と「非線形性」のうち、「深さ」に注目した論文です。線形の活性化関数で結ばれた層をどれだけ深くしても、全ての局所解は大域最適解と一致することが説明されています。


AI班の紹介

慶応義塾大学のコンピュータサークルKCSのAI班では人工知能の理論や実装を勉強をしています。4月からは初心者向けAI講習会も行います!新入部員募集中です!

AI班のTwitterはこちら
他のAI班の記録は「Tagged: AI班日誌
人工知能に関する記事は「Tagged: 人工知能

AI班の記録(2017/03/01)

今回はGANの論文と、PRMLの10章が紹介されました。

ai20170301

Image-to-Image Translation with Conditional Adversarial Networksの紹介

論文はこちら

話題のGAN(Generative Adversarial Nets、敵対的生成ネットワーク)の複数の手法を比較し、
手法を組合せたり改良したりすることによって精度の向上を試みた論文です。


PRML10.1〜10.4 大域的変分推論法の紹介

PRMLの10章は変分法を用いた近似推論である変分近似法について書かれています。
変文近似法のうち、変分推論法(変分ベイズ)と呼ばれる手法の中の大域的変分推論法の紹介をしました。


AI班の紹介

慶応義塾大学のコンピュータサークルKCSのAI班では人工知能の理論や実装を勉強をしています。4月からは初心者向けAI講習会も行います!新入部員募集中です!

AI班のTwitterはこちら
他のAI班の記録は「Tagged: AI班日誌
人工知能に関する記事は「Tagged: 人工知能

AI班の記録(2017/02/22)

入試期間が明け、春季休暇初めてのAI班の活動でした。
AI班の主な活動の1つは各部員が読んだ論文の紹介です。
今回は2つの論文が紹介されました。

ai20170222_1

“Why Should I Trust You?” Explaining the Predictions of Any Classifierの紹介

機械学習のモデルの解釈可能な根拠を提示する手法「LIME」の論文の紹介です。元の論文はこちら

一般的に機械学習は「ブラックボックス」と言われるように分類等の基準が人間には分からないため、学習データについてうまく学習されているように見えても期待していない的はずれな基準が用いられている可能性があります(これをData Leakageという)。
「LIME」はData Leakageなどを防ぐために以下のように人間が解釈できる形で基準を表すための仕組みです。

  • 文書分類問題で、分類の基準としている単語
  • 画像物体認識問題で、ある物体であると決める根拠とする画像範囲


Show and Tell: A Neural Image Caption Generatorの紹介

画像を入力すると、画像の内容を説明してくれるという手法の紹介です。


AI班の紹介

KCSは慶應義塾大学で唯一人工知能(情報論的学習)の理論や実装を勉強しているサークルです。4月からは初心者向けAI講習会も行います!新入部員募集中です!

AI班のTwitterはこちら
他のAI班の記録は「Tagged: AI班日誌
人工知能に関する記事は「Tagged: 人工知能

フレーム独立GMM-based mappingによる声質変換

こんにちは。1年のSannkoです。AI班です。

初投稿になります。

宜しくお願いします。

 

UMUさんの記事にもありますが、AI班は声質変換の活動をしています。

まだどのような手法で声質変換をしていくかは検討中ですが、既存の手法を試してみようと思います。

 

戸田さんの論文の2章に書いてある、提案手法ではない古い手法をやってみます。

この手法ではフレームごとにGMMでソースとターゲットの同時分布を推定して、そこから条件付き確率やら周辺確率が出せるのでそれを使って変換を行います。

フレーム間の関係は全く考えられていないので、最近の手法と比べるとかなり古典的な手法ですね。

 

https://pdfs.semanticscholar.org/d419/ceb2753232373fd4ab9534b371e017cd9dc1.pdf

 

データはこのサイトのものを使わせてもらいました。

ありがたいですね、こういう研究室は。

8.00モーラ/秒の25文のデータを使っています。

 

http://www.it.ice.uec.ac.jp/SRV-DB/

 

女性1から男性への変換をやってみたいと思います。

変換元の女性の声はこれ

 

 

ターゲットはこの男性です。

 

 

この文章のデータは訓練データからは除いてあります。

変換を行った結果がこれです。

基本周波数はそのままなので、声が高くなっているのがわかります。

ただ、声質は男性のものに近くなっている気がしますね(定性的)。

 

 

基本周波数の変換についてはフィルタとの関係などを考えてきちんと検討すべきですが、(正直よく分からないので)今回はとりあえず単純に切片0の回帰曲線でモデル化しました。

単純ですが、画像をみるとわかる通り、それなりに妥当です(定性的2)。

(追記)貼ってから気づいたんですが、この画像は切片を0にする前のやつでした。下のデータに使ったモデルはちゃんと切片0になっています。

figure_1-%e3%81%ae%e3%82%b3%e3%83%94%e3%83%bc

このモデルを使って基本周波数も変換をした結果がこれです。

ピッチを適当に扱ったのでノイズが増えてしまったような気がします(定性的3)。

しかしかなりターゲットの声に近づいたと思います(定性的4)。

 

 

正直、この単純な手法でここまで変換できたので驚いています。

今後は戸田さんの提案手法など、もう少し高度な手法を試してみたいですね。