それではデータセット(データの入ったファイル)を読み込んでみましょう。自分で準備したデータを読み込んでも良いのですが、まずは練習としてすでに Stata が準備してくれているデータセットを読み込みます。Stata には数多くのサンプルデータがすでに準備されています。「自分は自分の用意したファイルだけ扱うから問題ない」という方もいると思いますが、練習は大切です。まずは読み込んでみましょう。コマンドウィンドウ(メインウィンドウの下の方でしたね)に ``sysuse auto`` と入力してください。メインウィンドウに次のように表示されると思います。 . sysuse auto (1978 Automobile Data) ドット「. 」の後に書いてある ``sysuse auto`` の部分が、入力していただきたい部分です。 ``(1978 Automobile Data)`` と表示されていますが、これは 1978年時点での車 (automobile) のデータです。燃費や車の重さなどが入力されています。``sysuse`` というのが「システム (system) に内蔵されているデータを使う (use)」というコマンドで、``auto`` というのがデータ名です。実際にどういうデータが入っているか見てみましょう。 メニューから [View]>[Data Editor]>[Browse] を選択します。 ![メニュー選択](menu_05.png) すると次のようなのようなデータ一覧が表示されます。この画面は**データエディタ**といいます。 ![データエディタ](data_editor_03.png) 上の方には ``make``(車のメーカー)、``price``(値段)、``mpg``(1ガロンあたりの走行マイル)などが並んでいますね。``make`` のところは赤い文字で表示されていると思いますが、これはエラーではなく、数字ではなくて文字が入力されていることを色で教えてくれています。 ここで Stata が扱うデータの種類(データ型といいます)について少しお話しをします。Stata にはデータの種類として大きく分けて**数値**と**文字列**があります。数値は ``1`` や ``2016`` や ``2.718`` などで、文字列は ``A`` や ``Hello`` や ``Good Morning`` などです。文字列の「列」というのが気になるかもしれませんが、通常の文字と同じように考えていただいて結構です。データエディタを見ていただければ分かるように、数値は黒文字で、文字列は赤文字で示されています。 データエディタの列の一番上に書かれている ``make`` や ``price`` などを**変数**といいます。変数というのを初めて聞かれたかもしれません。変数というのは、数字のグループにつけられている名前のことです。たとえば ``price`` であれば、``4,099``, ``4,749`` という一連の数字が格納されていますが、それらを取り扱うときにまとめて名前がつけてあると便利です。そこでこの列全体に ``price`` という変数を割り当ててあります。「変な数」という意味ではなく「変化する数」という意味で捉えてください。 ずっと右の方にスクロールすると、``foreign`` という列があります。これは外車か国産車かを示している列です。アメリカのデータセットなので国産車というのはアメリカ車のことを示しています。この文字だけ青色で表示されていますね。これは、数字にラベルが付いた状態です。 **ラベル**という用語が初めての方のために、簡単に解説しましょう。ラベルを一言でいえば、数字と文字の対応を決めてある表です。対応表は Stata ではなく私たち人間が決めます。もともとは 国産車に ``0``、外車に ``1`` という数字が割り当てられていて 0、1で入力されていました。しかしそれでは分かりにくいので、人間が理解しやすいように ``0`` には ``Domestic``、``1`` には ``Foreign`` という「見た目」になるように対応表としてのラベルを定義して、それを適用してあります。文字が直接入力されている ``make`` は Stata 側では**文字列**として認識していますが、``foreign`` は 0 か 1 かの数字として Stata 側で認識しているという違いがあります。 少し細かい話になりましたが、あとでラベルの作り方もご紹介しますので覚えておいてください。 さて、今ウィンドウが2つ表示されています。Excel だと、データが表示されているウィンドウが心臓部ですが、**Stata では、データの表示されているウィンドウは閉じてしまって構いません**。普段の解析には必須ではなく、データのウィンドウを表示しないで作業することはよくあります。閉じてしまってもあとで開けますし、Stata はちゃんとデータを扱ってくれますので、安心して「×」を押して消してください。 では、どのウィンドウが心臓部かといいますと、メインウィンドウ(一番はじめにロゴが表示されていたウィンドウ)になります。Windows ですと、このウィンドウを閉じると Stata が終了します。「データを保存しますか?」などの確認画面が出るのも、メインウィンドウを閉じるタイミングになります。Mac ですと、メインウィンドウを閉じてもデータは消えません。Command(⌘)と Q を同時に押して Stata を完全に終了しない限りメインウィンドウもデータエディタも以前の状態が復活します。 ## データの情報を表示してみよう それではデータの内容を表示してみましょう。``describe`` コマンドで表示できます。 ``describe`` は「説明する」という意味です。 . describe Contains data from /Applications/Stata/ado/base/a/auto.dta obs: 74 1978 Automobile Data vars: 12 13 Apr 2014 17:45 size: 3,182 (_dta has notes) --------------------------------------------------------------------- storage display value variable name type format label variable label --------------------------------------------------------------------- make str18 %-18s Make and Model price int %8.0gc Price mpg int %8.0g Mileage (mpg) rep78 int %8.0g Repair Record 1978 headroom float %6.1f Headroom (in.) trunk int %8.0g Trunk space (cu. ft.) weight int %8.0gc Weight (lbs.) length int %8.0g Length (in.) turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.) gear_ratio float %6.2f Gear Ratio foreign byte %8.0g origin Car type --------------------------------------------------------------------- Sorted by: foreign 英語で色々書かれていますが、すべて理解する必要はありません。順番に見ていきましょう。 長い区切り線は一部省略してあります。このデータセットに関する様々な情報が表示されています。``obs`` というのはデータ数です。74のデータがあります。 ``vars`` というのは変数 (variables) の数です。``make``、``price`` など 12の変数があります。 表の一番右に ``variable label`` という列があり、変数についての説明があります。たとえば `rep78` という変数の説明は `Repair Record 1978` であり、1978年時点での修理歴ということがわかります。