本稿では、私が統計検定1級を受験した際の対策、特に解答作成力のトレーニング方法と試験当日の戦略について簡単にまとめています。
Step①:解答作成に必要な基礎力をつける
統計検定1級で解答を作成するためには、まず、そのために必要な基本事項を押さえておかなければなりません。これについては、本サイトで紹介している参考文献をもとに勉強を進め、ひと通り、理解ができたと思われた段階で過去問に挑戦します。この段階では、「時間を気にしない状態でどれくらい解けるのか」を確認することを目的とし、できるようであればパソコンなどで解答を作成してみます。自分なりの解答をかけたら解答例を参照し、間違っていた部分や曖昧にしか理解できていなかったところを再度確認します。
Step②:解答作成のスピード強化
ただ、実際の試験では、単に、基本的事項を理解し、出題された問題に対して答案を作成できればいいというわけではなく、実際にはそこに「制限時間内で」という但し書きがつきます。
率直に言って、この制限時間はかなりの難敵で、全体で90分、その中で大問5問中3問を選択して解答するので、大問1問あたりは約30分。大問1問はだいたい3~5の小問に分かれているので、小問1問あたりは約6~10分で解かなければなりません。これは実際にやってみたらすぐに分かりますが、問題文の意味を理解し、方針を考え、計算し、実際に手書きで答案を書くという一連の流れを行うには、あまりにも短い時間です。そこをなんとか時間内に収め、1問でも多くの小問に解答を書けるようにする基本的な対策として、次の2点があると思います。
答案の簡潔化
1点目は、簡潔に答案を書けるようにすることです。「書く文字の量を極力減らす」といいかえることもできるかもしれません。パソコンやIT端末全盛の時代にあって、手書きで文章を書く機会は確実に減っています(特に大学生・社会人)が、手書きで解答を書くのは、けっこう大変な作業で、意外と時間がかかるうえ、なによりも腕が疲れます。パソコン上で文字を打ち込んで解答を書くのであれば、割と丁寧に説明を書いたり、式展開をしていくこともできますが、現実には、短い時間の中で、同じことを手書きでするのは非常に大変で非効率です。
例えば、超幾何分布の期待値を求める場合、丁寧に書くと、
期待値の定義式 $E \left(X\right)=\sum_{x=-\infty}^{\infty}{x \cdot f \left(x\right)}$ より、 \begin{align} E \left(X\right)=\sum_{x=0}^{n}{x \cdot \frac{{}_{k}C_x \cdot {}_{N-k}C_{n-x}}{{}_{N}C_n}} \end{align} $x=0$ の項を外に出すと、 \begin{align} E \left(X\right)&=0+\sum_{x=1}^{n}{x \cdot \frac{k!}{x! \left(k-x\right)!} \cdot \frac{ \left(N-k\right)!}{ \left(n-x\right)! \left\{ \left(N-k\right)- \left(n-x\right)\right\}!} \cdot \frac{n! \left(N-n\right)!}{N!}}\\ &=\sum_{x=1}^{n}{x \cdot \frac{k!}{x! \left(k-x\right)!} \cdot \frac{ \left(N-k\right)!}{ \left(n-x\right)! \left\{ \left(N-k\right)- \left(n-x\right)\right\}!} \cdot \frac{n! \left(N-n\right)!}{N!}} \end{align} この式を変形すると、 \begin{align} E \left(X\right)&=\sum_{x=1}^{n}{\frac{k \left(k-1\right)!}{ \left(x-1\right)! \left(k-x\right)!} \cdot \frac{ \left(N-k\right)!}{ \left(n-x\right)! \left\{ \left(N-k\right)- \left(n-x\right)\right\}!} \cdot \frac{n \left(n-1\right)! \left(N-n\right)!}{N \left(N-1\right)!}}\\ &=n \cdot \frac{k}{N}\sum_{x=1}^{n}{\frac{ \left(k-1\right)!}{ \left(x-1\right)! \left\{ \left(k-1\right)- \left(x-1\right)\right\}!} \cdot \frac{ \left\{ \left(N-1\right)- \left(k-1\right)\right\}!}{ \left\{ \left(n-1\right)- \left(x-1\right)\right\}! \left[ \left\{ \left(N-1\right)- \left(k-1\right)\right\}- \left\{ \left(n-1\right)- \left(x-1\right)\right\}\right]!} \cdot \frac{ \left(n-1\right)! \left\{ \left(N-1\right)- \left(n-1\right)\right\}!}{ \left(N-1\right)!}}\tag{1} \end{align} ここで、以下のように変数変換すると、 \begin{gather} y=x-1\\ M=N-1\\ m=n-1\\ l=k-1\\ \end{gather} \begin{align} x:1\rightarrow n \quad \Rightarrow \quad y:0\rightarrow m \end{align} となるので、 式 $(1)$ は、 \begin{align} E \left(X\right)&=n \cdot \frac{k}{N}\sum_{y=0}^{m}{\frac{l!}{y! \left(l-y\right)!} \cdot \frac{ \left(M-l\right)!}{ \left(m-y\right)! \left\{ \left(M-l\right)- \left(m-y\right)\right\}!} \cdot \frac{m! \left(M-m\right)!}{M!}}\\ &=\frac{nk}{N}\sum_{y=0}^{m}\frac{{}_{l}C_y \cdot {}_{M-l}C_{m-y}}{{}_{M}C_m} \end{align} ヴァンデルモンドの恒等式 $\sum_{y=0}^{m}{{}_{l}C_y \cdot {}_{M-l}C_{m-y}}={}_{M}C_m$ より、 \begin{align} E \left(X\right)&=n \cdot \frac{k}{N} \cdot \frac{{}_{M}C_m}{{}_{M}C_m}\\ &=n \cdot \frac{k}{N} \end{align} という解答を書くことができます。
ただ、手書きでこれを書こうとするとけっこうな時間と労力を要するため、実際には、例えば
\begin{align} E \left(X\right)&=\sum_{x=0}^{n}{x \cdot \frac{{}_{k}C_x \cdot {}_{N-k}C_{n-x}}{{}_{N}C_n}}\\ &=0+\sum_{x=1}^{n}{x \cdot \frac{{}_{k}C_x \cdot {}_{N-k}C_{n-x}}{{}_{N}C_n}}\\ &=n \cdot \frac{k}{N}\sum_{x=1}^{n}{\frac{ \left(k-1\right)!}{ \left(x-1\right)! \left(k-x\right)!} \cdot {}_{N-k}C_{n-x} \cdot \frac{ \left(n-1\right)! \left(N-n\right)!}{ \left(N-1\right)!}} \end{align} ここで、 \begin{gather} y=x-1 \quad M=N-1\\ m=n-1 \quad l=k-1 \end{gather} \begin{align} x:1\rightarrow n \quad \Rightarrow \quad y:0\rightarrow m \end{align} とすると、 \begin{align} E \left(X\right)&=n \cdot \frac{k}{N}\sum_{y=0}^{m}{\frac{l!}{y! \left(l-y\right)!} \cdot \frac{ \left(M-l\right)!}{ \left(m-y\right)! \left\{ \left(M-l\right)- \left(m-y\right)\right\}!} \cdot \frac{m! \left(M-m\right)!}{M!}}\\ &=\frac{nk}{N}\sum_{y=0}^{m}\frac{{}_{l}C_y \cdot {}_{M-l}C_{m-y}}{{}_{M}C_m} \end{align} ヴァンデルモンドの恒等式より、 \begin{align} E \left(X\right)&=n \cdot \frac{k}{N} \cdot \frac{{}_{M}C_m}{{}_{M}C_m}\\ &=n \cdot \frac{k}{N} \end{align} というくらいの簡略化が必要となります。
また、混合正規分布 \begin{align} f \left(x\right)&=\frac{1}{2} \left\{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{ \left(x-\mu_1\right)^2}{2\sigma^2}}+\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{ \left(x-\mu_2\right)^2}{2\sigma^2}}\right\}\\ &=\frac{1}{2\sqrt{2\pi}\sigma} \left\{e^{-\frac{ \left(x-\mu_1\right)^2}{2\sigma^2}}+e^{-\frac{ \left(x-\mu_2\right)^2}{2\sigma^2}}\right\} \end{align} の1次導関数を求める問題の場合、 場合によっては、 \begin{gather} f \left(x\right)=\frac{1}{2\sqrt{2\pi}\sigma}\sum_{i=1}^{2}{\mathrm{exp} \left\{-\frac{ \left(x-\mu_i\right)^2}{2\sigma^2}\right\}}\\ g_i \left(x\right)=\mathrm{exp} \left\{-\frac{ \left(x-\mu_i\right)^2}{2\sigma^2}\right\} \end{gather} というふうに $\Sigma$ 記号や添え字 $i$ を使って表し、 \begin{gather} g_i^\prime \left(x\right)=-\frac{ \left(x-\mu_i\right)}{\sigma^2}\mathrm{exp} \left\{-\frac{ \left(x-\mu_i\right)^2}{2\sigma^2}\right\}\\ f^\prime \left(x\right)=-\frac{1}{2\sqrt{2\pi}\sigma^3}\sum_{i=1}^{2}{ \left(x-\mu_i\right)\mathrm{exp} \left\{-\frac{ \left(x-\mu_i\right)^2}{2\sigma^2}\right\}} \end{gather} というふうに省力化を図ることができるかもしれません。
そのほか、例えば \begin{align} x-y \end{align} の正負が問題となりそうな場合に 絶対値 \begin{align} \left|x-y\right| \end{align} を考えることで場合分けが必要なくなるかもしれません。
このような解答の合理化・簡潔化ができたら、今度は、過去問を①制限時間内に②手書きで解いていきます。この試行の中で制限時間内に解ききれない場合には、基礎事項の確認や解答パターンの更なる洗練を行い、制限時間内に解答を書ききれるように仕上げていきます。
電卓の使い方を確認する
スピード強化にあたり重要なポイントの2点目は、電卓を使いこなすことです。統計検定では計算時に電卓の使用が認められています。なので、誰でも簡単に手早く計算することができるのですが、例えば、対数オッズ比の漸近分散を求める際に、 \begin{align} V \left(\log{\mathrm{\widehat{OR}}}\right)=\frac{1}{59}+\frac{1}{71}+\frac{1}{60}+\frac{1}{65} \end{align} という計算が必要になることがあります。
これに対し、電卓の便利な機能を知らない場合は、まず、 \begin{align} \frac{1}{59}\cong0.017 \end{align} と計算し、 それをメモして、次の項を計算してメモしてということを繰り返し、最後にメモを頼りに、 \begin{align} V \left(\log{\mathrm{\widehat{OR}}}\right)\cong0.017+0.014+0.017+0.015=0.063 \end{align} というふうに計算します。
ところが電卓のメモリー機能($\mathrm{M}+$ボタンと$\mathrm{MRC}$ボタン)を用いると、[]を電卓のキーとして \begin{align} 1 \left[\div\right]59 \left[\mathrm{M}+\right]1 \left[\div\right]71 \left[\mathrm{M}+\right]1 \left[\div\right]60 \left[\mathrm{M}+\right]1 \left[\div\right]65 \left[\mathrm{M}+\right] \left[\mathrm{MRC}\right]=0.063 \end{align} と簡単に計算できます。
また、$\mathrm{t}$統計量を求める際に、 \begin{gather} t=\frac{4.82-2.15}{\sqrt{6.56 \left(\frac{1}{3}+\frac{1}{3}\right)}} \end{gather} となった場合は、 \begin{gather} \sqrt{6.56 \left(\frac{1}{3}+\frac{1}{3}\right)}\cong2.091 \end{gather} をメモして \begin{gather} 4.82-2.15=2.67\\ t=\frac{2.67}{2.091}\cong1.28 \end{gather} と計算しますが、 メモリー機能を使うと、 \begin{gather} 6.56 \left[\times\right]2 \left[\div\right]3 \left[=\right] \left[\sqrt{}\right] \left[\mathrm{M}+\right] \left[\mathrm{ON}\right]4.82 \left[-\right]2.15 \left[=\right] \left[\div\right] \left[\mathrm{MRC}\right] \left[=\right] \end{gather} で同様の結果が得られます。
普段の生活の中で電卓を使って計算することはあまりないと思いますが、こうした便利な機能を使えるか使えないかの違いは、とにかく時間がない試験ではバカになりません。キーを打って、計算結果をメモする間にも時間と腕の体力は削られていますし、キーの打ち間違いや転帰のミスも起こり得ます。「電卓 使い方」で検索すれば、10分で習得できることなので、この機会に電卓の便利な機能を覚えてしまいましょう。
試験当日の戦略
時間配分
先にも述べたように、統計検定1級は、全体で90分、大問1問あたりは約30分の時間配分となっています。試験中に解答を作成するにあたってまずやるべきことは、どの3問を選ぶかという「問題選択」です。あとで述べますが、この問題選択は非常に重要なので、ここには3~5分くらいを費やし、最もできそうな組み合わせを吟味しましょう。すると、ざっくりとした時間配分は、
- 問題選択・解答順序の決定 5分
- 1問目 25分
- 2問目 30分
- 3問目 30分
という感じになります。
目標解答率
統計検定1級は、約6割が合格ラインとされているので、各大問が5つの小問から構成されている場合は3問以上、4問なら3問以上、3問なら2問以上がノルマとなります。ただ、前の問題ほど基礎的で、後ろの問題ほど難しくなっていく傾向があり、各大問の最後の問題は、そもそも実力的に解けないことも珍しくはありません。また、解答時間も非常に短いため、「最後の問題に着手できれば御の字」とした方が良いと思います。
すなわち、大問1問につき、小問5問から構成されていると仮定して、
- 1問目 4/5
- 2問目 4/5
- 3問目 4/5
の解答を書ききり、 これに加えて、基本事項の勘違いや計算ミスなどを考慮し、各大問の獲得点数が、
- 1問目 60%
- 2問目 60%
- 3問目 70%
くらいになることで合格ラインに乗せることを目標とします。
問題選択の方針
率直に言って、問題選択を適切にできるかどうかは非常に重要で、それが合否を分けると言っても過言ではありません。現状よりも1時間試験時間が長ければ、問題を解いている途中で「この問題は、実力的に無理だった」と気づいても挽回は可能でしょうが、現状の時間ではそうなっても後の祭りで、その時点で試合終了です(筆者も1敗しました)。それゆえ、どの問題を選べば、上記のような目標解答率を達成できるかを嗅ぎ分けることは非常に重要です。
この点、基本的には、着手する優先順位を整理しておくことが大切だと思います。人によって得意・不得意、入念に勉強した・準備が足りない分野やテーマがあると思いますが、自分の場合、応用統計(医薬生物学)を受けるにあたり、まず以下のテーマは、ノータッチ、ないしほとんど勉強していない状態だったので、見た瞬間に選択肢から外そうと決めました。
- 重回帰分析
- 回帰分析の変数選択法(AIC、カルバック・ライプラー情報量、マローズの基準など)
- 実験計画法・分散分析
- コクラン・アーミテージの傾向性検定
- 中間解析
- 傾向スコア
- メタ・アナリシス
- 経時データ解析
- 多重比較法
- 一般化線形モデル
- 傾向スコア解析
- ポアソン回帰分析
- 乱数の発生法
- ベイズ推定
- 多変量解析(デルタ法、中心極限定理、極値問題)
先にも述べたように、1級の各大問は、前は簡単で、後ろにいくほど難しくなります。どの問題でもたいていの場合、前半部分は何とかなる場合が多いのですが、各問での解答ノルマを考えると、本質的には後半の問題が自分にとって解ける問題かという点が重要になります。この点、例えば自分にとっては、「ベイズ推定」や「経時データ解析」は1問目から解けない問題であり、ある意味、スパッと除外することができます。
問題となるのは、「前半は分けるけど、後半は不可能」なパターンです。自分の場合は、「生物学的同等性の示し方」などが該当し、基本事項であるネイマン・ピアソンの基本定理や単調尤度比の原理を用いた検定方法の導出についての理解が浅く、解答パターンを確立できていなかったり、Intersection-Union test の考え方を知らなかったため、「そもそも不可能な問題」でした。こうした問題については、究極的には「解いてみないと、できるかできないか分からない」類の問題であり、パッと見で完璧に見分けることは非常に困難ではありますが、「自分はどこをよく分かっていないのか」という点を整理することは有効だと思います。自分の場合は、次のようなテーマの理解に不安があったため、「これ以外に選択肢がない場合を除き、可能な限り避ける」という方針にしました。
- 多項分布のモーメント母関数の導出
- ネイマン・ピアソンの補題や単調尤度比の原理を用いた検定の導出
- 検査精度(ROC曲線のAUCの算出)
- 境界内平均生存時間
これらの方針は、「踏んだら即終了の地雷を避ける」ための方針です。私はそれに加えて、「時間のかけすぎや計算ミスなどを防ぐために注意すべきテーマ」についても次のように整理しました。これらのテーマは、「対応可能なはずだが、過去問演習などの段階で注意すべき点を感じた」テーマです。
- 尤度比検定(自由度の求め方があやふやになりがち)
- 超幾何分布の期待値と分散の導出(計算量が多く、技術的な式変形が必要)
- 超幾何分布の取り得る値(上限値と下限値があやふやですっきりとは頭に入っていない)
- ログランク検定の実施(スコアの分散は、厳密にはマルチンゲール理論を要するため、不安なときに自力での導出が不可能)
- 部分尤度法(やり方はなんとなく分かるけど原理をしっかりと理解しているわけではない)
- 確率積分変換
- 多項分布の最尤推定量の導出(簡潔な解答パターンができていないため、時間がかかりがち)
- ROC曲線の作図(基本的に、表を書いていくのが最も確実だが、時間がかかりがち)
- サンプルサイズの設計(優越性試験)
- サンプルサイズの設計(同等性・非劣性試験)
- ロジスティック回帰分析の最尤推定
着実性の向上とミスの防止
仮に地雷を回避し、注意点にも気を配ることができたとして、得点を最大化するためには、最後に「時間のかけすぎや計算ミスの防止」が必要となります。解答を作成するにあたっては、「答えの導出・算出過程も記しなさい」と指示されており、多少の計算ミスをしても救済されるようになっていますが、やはり、計算はあっているに越したことはありません。
この点、解答のスピードと確実性のどちらが重要かと言われれば、やり直しの時間が取れないゆえに「確実性」の方が重要となります。自分の場合、確実性を上げるために、以下の点に気をつけました。
- 部分積分法やベイズの定理を用いた計算では、しばしば正しい型での計算ができなくなるため、分からなくなりそうであれば、基本形を書いたり、定義から導出する。
- 陽性・陰性的中度の計算時にベイズの定理が分からなくなったら、具体的に2×2分割表を書く。
- 上側確率・下側確率は、正規分布の形を書き、該当する領域を塗る。
- 検定統計量や信頼区間については、母分散が既知か未知かをしっかりと確認する($z$ を用いるべきか $t$ を用いるべきかに気をつける)。
- 2×2分割表は、基本的に周辺度数も求めた方が良い(層別解析などで使うことになる場合が多い)。
心構え
最後に心構えについて。ここまで述べたような事前準備を整え、万全の態勢で臨むことはできますが、いざ試験が始まってしまえば、臨機応変な対応が求められます。他の分野については検証していないので分かりませんが、私が選択した医薬生物学では、毎年「それまでに出題されていないテーマ」が出題される傾向が非常に強いので、基本的にはけっきょく「初見の問題に対する対応力」が問われます。初見の問題の場合、まず意味を理解するところから始まり、問題に対して、過不足なく簡潔に解答を書かなければなりません。これはかなり大変な作業で、時間があっという間に過ぎていきます。
パッと見では、「やったことがありそうなテーマが2つしかない…」ということもあります(実際に私はそうなりました)。そういう絶望的な不測の事態に陥った場合でも、事前に準備した解答方針や作戦に即して、「完全な初見っぽい問題のうちどれならば食い下がれそうか」を判断し、最後まで粘り抜くことが重要です。
現状では、1級は1年に1度しか受験の機会がないため、何度もチャレンジすることはモチベーション的な意味で難しい試験です。「得意なテーマが3問、ノータッチのテーマが2問だったので、問題選択にも解答作成も困らなかった」という場合もあれば「解ける問題が2問しかなかった…」という場合もあり、多分に「運」の要素も絡んできます。ただ、そういう難しさが多い試験だからこそ、合格の確率を上げるためには、ノータッチのテーマを可能な限り減らし、自分の得意・不得意を整理するなどの事前準備が本当に重要なのだと思います。
0 件のコメント:
コメントを投稿