【初学者必見】初見で面食らいそうなデータサイエンス用語10選【数式を使わない用語解説】

データサイエンスに関する情報を閲覧していくと、「ええっ…」となる”イカツい”用語、ありますよね。

今回は筆者が独断と偏見で選んだ、『所見で面食らいそうな”イカツい”用語』を紹介したいと思います。

もちろん、「理系キライ」「英語ダメ」「数式No Thanks」という方向けに、ざっくりしたイメージできるような解説をお付けしますので、初学者の方は安心して（？）ご覧ください。

ニュアンスを伝えることに重点を置いた解説になっているため、本格的に気になった用語があったらご自身でご確認ください。

一般に浸透した（しちゃった）用語
1. ①クラスター
前処理で出てくる用語
1. ②形態素解析
分かってしまうとなんてこと無い統計学の用語
ディープラーニング関係の略語
1. ⑦CNN　⑧RNN　⑨LSTM
AI関連
1. ⑩不気味の谷（現象）
AI関連・番外編
1. 『AI（人工知能）』はどう説明するのが妥当？

一般に浸透した（しちゃった）用語

①クラスター

データサイエンス分野の「データのかたまり」をカッコよく言い換えたもの。

コロナ禍によって一気に世に広まった単語の代表格『クラスター』です。『クラスター』は『集団』を意味します。関連事項は分析手法「階層クラスター分析・非階層クラスター分析」で「クラスタリングする」＝集団（データのかたまり）を作る≒グルーピングする、というニュアンスでOKでしょう。

前処理で出てくる用語

②形態素解析

テキストデータを分析する際に必ず通る作業、それが『形態素解析』です。これは「文章を単語ひとつひとつ（単語の最小単位）を解析してバラバラにする」という処理のことになります。そして、バラバラにしたその単語ひとつひとつのことを『形態素』と呼びます。

日本語だと「名詞」「代名詞」「動詞」「助詞」「助動詞」…と、細かく分解します。機械学習のテキストなんかでは「形態素解析で名詞を取り出します」といった処理をよく見かけますが、形態素解析では文章を全部バラバラにしていて、そこから必要なぶんだけピックアップすることが多いです。

分かってしまうとなんてこと無い統計学の用語

③目的変数　④説明変数

データ分析で目的になるデータ項目を『目的変数』、データ分析で計算にぶち込むデータを『説明変数』と呼びます。

「過去の最高気温と降水量、交通量で売上を分析してみよう」…売上が『目的変数』、気温・降水量・交通量が『説明変数』になります。

「128×128ピクセル、白黒画像データで、その画像に何の数字が書かれているかを判別するAIを作ろう」…その画像に何の数字が書かれているかが『目的変数』、128×128ピクセルの画像データが『説明変数』になります。この場合の説明変数は16,384個もあることになり、真っ向から分析するのはしんどいので後に出てくる技術（CNN）がよく使われます。

⑤ランダム化比較試験

なんだかすごく想像しがたい特殊な実験のようなネーミングでが、これは『集団をランダム（テキトー）に振り分けて、気になる項目を比較すること』です。

例えば「ある教室の生徒を2つのグループに分けて、片方には頭が良くなるドリンクを飲んでもらって、テストを受けてもらう。頭が良くなるドリンクの効き目を確認したい」という場合、最初のグループ分けが「男女別」だったりすると、そもそもテストの難易度が性別によって偏りがあるとまずいですよね。そこで、「最初のグループ分けをランダムに分けて実験しよう」というアイデアがランダム化比較試験になります。

⑥多項ロジットモデル（MLN）

まず、データ分析で『ロジ』ときたら『ロジスティック』の略だと思って大丈夫です。ロジスティック回帰分析のことを、口頭では「ロジ回帰」と略すケースによく遭遇します。

そしてこの『多項ロジットモデル』ですが、このままネットでワード検索すると「多項ロジット」「多項ロジスティック回帰」など、色々なバリエーションが出てきます。

多項ロジットモデルは『目的変数が3つ以上あるロジスティック回帰の式』のことを指しています。

ロジスティック回帰は2値の分類で、これが3つ以上＝多クラス分類になるとこのような名称の式が出てくる、という解釈でOKです。

ディープラーニング関係の略語

⑦CNN　⑧RNN　⑨LSTM

まず、『NN』ときたら『ニューラルネットワーク』（人間の脳の働きを模したアルゴリズム）のことです。

『CNN（Convolutional neural network）』は『畳み込みニューラルネットワーク』です。主に画像の解析で使用されます。

『RNN（Recurrent neural network）』は『再帰型ニューラルネットワーク』です。時系列データをニューラルネットワークで解析したいときに使用されます。CNNと1文字違いですが、こちらは時間の流れがデータに大いに関係があるケースで活躍します。（音声データや株価の予測など）

『LSTM（Long Short-Term Memory）』はRNNの発展版な位置づけで、『長・短記憶』と訳されます。特徴としては、「記憶」という言葉があるように一部データを忘れたり（捨てたり）する、という工夫が組み込まれています。

グループ分けするなら『CNNは画像、RNNとLSTMは時系列』です。

AI関連

⑩不気味の谷（現象）

有名な心理現象で、『ロボットが外見的に人間に近づけば近づくほど親近感が湧いてくるが、かなり人間に近づいたある時点に到達すると、それを見た人間は嫌悪感を抱く』というものです。

これはロボットの見た目と人間の感情の関係についての話で、アニメっぽい外見やいかにもロボットっぽい見た目だと「可愛らしさ」みたいな感情を抱くものですが、いざ表情だったり仕草がリアルなロボット（アンドロイド）を目の当たりにすると、「何か気持ち悪い、不気味だ」と思いますよね。この現象は仮説でしたが、近年カリフォルニア大学の心理学者によって実際に生じるという研究発表がなされていました。

AI関連・番外編

『AI（人工知能）』はどう説明するのが妥当？

『AI（人工知能）』については、現在明確な定義がありません。筆者は100％ビジネス目線でデータ分析業務にあたるため、AIについては次のような説明をよく行います。

AIは汎用型と特化型があって、汎用型は「強いAI」、特化型は「弱いAI」と言います。

汎用型AI（強いAI）は、いわばドラえもんみたいなもんで、まず実現不可能と思います。ドラえもんはたぶん、人間みたいに「（顔色を見て）どうしたの？熱があるの？」とか、自分の意思に基づいて、相手の立場や感情を汲み取り、まんま人間みたいな行動をとりますが、そんな強いAIは出てこないかと思います。

ということで、現在AIと呼ばれるのは全部特化型AI（弱いAI）です。これは目的に特化したAIなんですが、ここでいう「弱いAI」は、計算機みたいなもんです。この計算機が特殊で、『曖昧な答えも出してくれる電卓』です。電卓は「店主の気まぐれで100円か90円になるりんごを3個買ったとき、…」という問題はストレートに解けませんが、弱いAIは過去のデータをたくさん与えれば、確率的な答えを出すことができます。この「過去のデータがあればなんとか答えを出してくれる電卓」に使われる仕組みが、各種機械学習手法です。

なので、「AIとは何か？」という答えについては、

「現在、AIと呼ばれるものは『弱いAI』です。機能面から見れば『過去のデータから特徴を探る』という人間の思考アプローチに似ているので、結局は機械学習アルゴリズムを、データが更新するごとに自動で回すようにセットすれば『黙々と作業をこなす特化型AI』になりますね」

という回答をよくします。

また「人間とAIの関係」といった壮大なテーマに関する個人的な意見としては、「AIの最大値は、完全に過去のデータを知り尽くした社外取締役くらい？」ということで、まぁAIの導入＝参考になる人材を一人増やしたくらいかな、といった感じですね。

最後に、今まで聞いた『悪い意味でオドロキのAIの定義』についていくつか紹介し、終わりたいと思います。

くるみちゃん

「学生の不正解パターンを組み合わせて作った問題提案AI」

（2019年頃）

くうちゃん

　膨大な分岐を用意してるようでした。昔のAIブームの定義でしょうか？

くるみちゃん

「AIは、ディープラーニング」

くうちゃん

　機械学習のうち、ひとつの計算アルゴリズムですね。

くるみちゃん

「TensorFlow（Google）を使っていれば、それがAI」

くうちゃん

　それ、いわば　”ソフト名”　ですわ…

一般に浸透した（しちゃった）用語

①クラスター

前処理で出てくる用語

②形態素解析

分かってしまうとなんてこと無い統計学の用語

③目的変数 ④説明変数

⑤ランダム化比較試験

⑥多項ロジットモデル（MLN）

ディープラーニング関係の略語

⑦CNN ⑧RNN ⑨LSTM

AI関連

⑩不気味の谷（現象）

AI関連・番外編

『AI（人工知能）』はどう説明するのが妥当？

コメント

③目的変数　④説明変数

⑦CNN　⑧RNN　⑨LSTM