Hack 'em Down

2015年2月27日金曜日

【完全版】初心者・中級者・上級者熟練度別C++の選書23冊 (和書多し)

(この記事は基本的にhttp://stackoverflow.com/questions/388242/the-definitive-c-book-guide-and-listよりの翻訳です。)

他のプログラミング言語と異なり、C++はインターネットの資料をかき集めるだけで学ぶことは難しく、良書を読むことが必要になる。 C++は非常に巨大で複雑な言語である。あまりに巨大で複雑なので、C++の書籍には非常に非常にたくさんの悪い本がある。以下のリストはAssociation of C and C++ Users (ACCU) のメンバーによるレビューを受けたC++の選りすぐりの良書である。

元のstackoverflowのリンクは全て英語だったのが不便だったので、訳書のあるものはそちらを示した。

・初心者

・プログラミング経験のない初心者向け

ストラウストラップのプログラミング入門

・プログラミング経験があり、C++を始める人向け

C++ プライマー第4版

A Tour of C++ (英語)

Accelerated C++―効率的なプログラミングのための新しい定跡

Thinking in C++: Introduction to Standard C++, Volume One (英語)

・ベストプラクティス

Effective C++ 第3版

Effective STL―STLを効果的に使いこなす50の鉄則

・中級者

MORE EFFECTIVE C++

Exceptional C++―47のクイズ形式によるプログラム問題と解法

More Exceptional C++ さらに40のクイズ形式によるプログラム問題と解法

Exceptional C++ Style―40のクイズ形式によるプログラム問題と解法=スタイル編

C++ Coding Standards―101のルール、ガイドライン、ベストプラクティス

C++ テンプレート完全ガイド

Effective Modern C++: 42 Specific Ways to Improve Your Use of C++11 and C++14 (英語)

・上級者

Modern C++ Design: Generic Programming and Design Patterns Applied (英語)

C++ Template Metaprogramming: Concepts, Tools, and Techniques from Boost and Beyond (英語)

C++ Concurrency in Action: Practical Multithreading (英語)

Advanced C++ Metaprogramming (英語)

・レファレンス (初～上まで)

ストラウストラップのプログラミング入門

The C++ Standard Library: A Tutorial and Reference (英語)

・古典的良書

The Design and Evolution of C++

C++再考

Advanced C++ Programming Styles and Idioms (英語)

Large Scale C++ Software Design (英語)

2014年11月28日金曜日

プログラミング初心者が中級者になるために学ぶべき４つの開発ツール

プログラミングの生産性はプログラマによって大きく異なります。

生産性の差というのはアルゴリズムや言語の知識、才能など様々ありますが、その中で最も効率よく、素早く改善出来るのは開発ツールの習得でしょう。

開発ツールは世の中に五万とあり、様々な用途に合わせて作られています。

それらのツールを習得しているということはプログラマとしての能力そのものと言えるでしょう。

そして、天才的なプログラマでも意外とツールを良く理解していないことがあります。彼らに対してアドバンテージを取れるという意味でも開発ツールを学ぶ価値は非常に大きいです。

ここでは個別のツールに限定するのではなく、広くどのようなツールを、どのように学ぶべきなのかを議論したいと思います。

1. IDE (統合開発環境)

ex. Eclipse, Visual Studio

多くのプロジェクトにおいて、IDEはプログラミングの殆どの時間、開いているものです。
これを良く理解しているということがプログラマにとって重要であることは間違いありません。

しかし、「IDEを習得する」とはどういうことでしょうか。
IDEの利便性を最大限に引き出すためには以下の２点を習得する必要があるでしょう。

1. ショートカットキーを覚える

IDEは思った以上に沢山のショートカットキーが存在します。
いちいちGUI上でクリックするのではなくショートカットを利用するだけで作業効率は一段と上がります。

ビルドやデバッグなどの非常に頻繁に使うショートカットはすぐに覚えますが、それほど頻繁ではないショートカットの場合、自分で意識して使うようにしないと覚えられないものです。

2. ビルドプロセスを理解する

IDEを自在に操れる人というのはIDEがその内部で何をやっているのかを理解しているプログラマです。

多くのIDEはMakefileに相当するものを自動生成することでプロジェクトのビルドを自動化しています。

この自動生成されるMakefileに凡そどのような内容が書かれているのかを理解すると様々な自動化が可能になります。

例えばIDEが行っているビルドをそのままスクリプトにまとめることでテストビルドを自動化することが出来ます。

2. テキストエディタ

ex. Vi, Vim, Emacs

テキストエディタはあらゆる場面で使う、プログラマ・エンジニアの根幹となる武器です。
プログラマにとって優良なテキストエディタを習得するということは、日本人にとって日本語を習得するということと同義です。

テキストエディタの習得において最も大切なことはショートカットを覚えることです。そもそもテキストエディタを開く目的自体、あるコマンドを実行することである場合もあるでしょう。

ちなみにテキストエディタとしてはViかEmacsをおすすめします。
これらはコマンドライン上で使え、ショートカットが豊富であり、またシェアが大きいからです。

十中八九、一生使えるツールになるでしょう。

3. Git (バージョン管理ツール)

ex. Git, Subversion (ここではバージョン管理ツールとして)

時々Gitは不必要に複雑だ、という方がいます。

複雑かもしれませんが、不必要なものではありません。

そもそも、バージョン管理はいかなる種類のソフトウェアにおいても重要なものです。
個人で開発する場合でも、過去のコードというのは常に取っておくべきものであり、また開発の途中で「やっぱりPlan AじゃなくてPlan Bにしよう」という時にPlan Aに取りかかる前の状態にコードを戻すことが出来ます。

これを手動でやろうとして失敗した方は多いと思います。

バージョン管理を丁寧に行うだけで作業の効率は格段に上がります。

Gitとは全てのプログラマが習得すべきツールです。

また、Gitは絶対にコマンドライン上で扱うべきです。
確かにGUIも有用ですが、GUIはそのままでは自動化出来ないという致命的な欠点を持っています。

Gitのcommitやpushというのはめんどうな作業であるので、だからこそそれらを自動化することでそれらの作業を単純化することが出来るのです。

4. スクリプト言語

ex. Perl, Ruby, Python

これまでのツール紹介でも繰り返し自動化と言ってきました。

自動化というのは開発ツールの本質の一つでしょう。

そして、どれだけ自動化出来るかというのは、プログラマの能力のかなり精確なベンチマークであるでしょう。

それらの自動化を担当するのがスクリプト言語です。

スクリプト言語の代表はPerl, Ruby, Pythonでしょう。

スクリプト言語は本質的に「上から順に実行する」というものなので、自動化というものととても相性がいいのです。また、そもそもスクリプト言語は書くのが簡単であるということもあります。

これらの開発ツールを習得し、高い生産性と知識を得ればいち早く初級者から中級者になれるでしょう。

そもそもプログラミングとは効率向上・自動化の為のものです。

それを、プログラミングという活動自体に適用するということが中級者以上に求められる技能とも言えましょう。

Amazon.co.jp ウィジェット

2014年11月25日火曜日

Cスタンダードライブラリにおけるsin関数の実装

Cスタンダードライブラリにおける関数は様々な驚くべき実装が存在します。
rand()関数はどのようにして乱数を作っているのでしょうか。sin()関数はどのようにしてサインを計算しているのでしょうか。

ここではsin()の実装について考えてみましょう。

・sin関数の計算方法

そもそもsinを求める方法とは何があるでしょうか。

まず思いつくのはテイラー展開でしょうか。

テイラー展開をすることでsinは以下の式で表せます。

無限級数なのでどこかで丸めなければなりません。double型の桁数に合うように次数を決められれば良いのですが、その場合次数はxの値に依存することになります。
つまりxが大きいほど収束が遅くなるため、展開次数を大きくとる必要があります。

もう一つ、sinを求める方法は三角比表でしょう。

例えば以上の三角比表が与えられた場合、
sin2°はsin0°とsin5°の線形補間で計算できます。

しかし、上の表を見れば分かるように、5°刻みだと非常に粗い補間になってしまいます。
double型に使うにはもっと大きな表が必要になるでしょう。ただしそうすると、より多くのメモリを要求することになります。

また、線形補間ではなく二次補間をすることでより精度をあげることが出来るでしょう。しかしこの場合は計算時間が大きくなります。

さて、いずれの方法にしても精度と計算資源(メモリ・時間)のトレードオフの関係があると言えます。

sinの実装

では、実際の実装はどのようにしてsinを計算しているのでしょうか。

ここではIBM Libraryの実装を見てみましょう。
この実装はsinの真の値に最も近いdoubleの値を返します。

/*
 * IBM Accurate Mathematical Library
 * written by International Business Machines Corp.
 * Copyright (C) 2001-2014 Free Software Foundation, Inc.
 *
 * This program is free software; you can redistribute it and/or modify
 * it under the terms of the GNU Lesser General Public License as published by
 * the Free Software Foundation; either version 2.1 of the License, or
 * (at your option) any later version.
 *
 * This program is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU  Lesser General Public License
 * along with this program; if not, see <http://www.gnu.org/licenses/>.
 */

//..中略..//

double
SECTION
__sin (double x)
{
  double xx, res, t, cor, y, s, c, sn, ssn, cs, ccs, xn, a, da, db, eps, xn1,
    xn2;
  mynumber u, v;
  int4 k, m, n;
  double retval = 0;
  SET_RESTORE_ROUND_53BIT (FE_TONEAREST);
  u.x = x;
  m = u.i[HIGH_HALF];
  k = 0x7fffffff & m;           /* no sign           */
  if (k < 0x3e500000)           /* if x->0 =>sin(x)=x */
    retval = x;
 /*---------------------------- 2^-26 < |x|< 0.25 ----------------------*/
  else if (k < 0x3fd00000)
    {
      xx = x * x;
      /* Taylor series.  */
      t = POLYNOMIAL (xx) * (xx * x);
      res = x + t;
      cor = (x - res) + t;
      retval = (res == res + 1.07 * cor) ? res : slow (x);
    }                           /*  else  if (k < 0x3fd00000)    */
/*---------------------------- 0.25<|x|< 0.855469---------------------- */
  else if (k < 0x3feb6000)
    {
      u.x = (m > 0) ? big + x : big - x;
      y = (m > 0) ? x - (u.x - big) : x + (u.x - big);
      xx = y * y;
      s = y + y * xx * (sn3 + xx * sn5);
      c = xx * (cs2 + xx * (cs4 + xx * cs6));
      SINCOS_TABLE_LOOKUP (u, sn, ssn, cs, ccs);
      if (m <= 0)
        {
          sn = -sn;
          ssn = -ssn;
        }
      cor = (ssn + s * ccs - sn * c) + cs * s;
      res = sn + cor;
      cor = (sn - res) + cor;
      retval = (res == res + 1.096 * cor) ? res : slow1 (x);
    }                           /*   else  if (k < 0x3feb6000)    */
/*----------------------- 0.855469  <|x|<2.426265  ----------------------*/
  else if (k < 0x400368fd)
    {

//..後略..//

sourceware.orgで全コードを見ることが出来ます。

まず面白い最適化として、xの大きさに応じて場合分けをしていることがあげられます。

xが小さい場合はテイラー展開を、45°程度の場合は三角比表を、などなどそれぞれの場合に異なる処理をしていることが分かります。

xが小さい場合はテイラー展開が非常に早く収束するのでテイラー展開を採用するなど、非常に高い水準でのトレードオフが見られます。

Cという言語はこのような極限の最適化を重ねて書かれた言語です。
坐臥して最速という訳ではないということでしょう。

Amazon.co.jp ウィジェット

2014年11月17日月曜日

Unixテキスト処理コマンド集【cat, head, tail, grep, sort, join, awk】

テキスト形式のデータ処理に便利なUnixコマンドを紹介します。

Unixコマンドは無数にあるのですべてをカバーすることは出来ません。

ここではお手軽に一行で書けるコマンドを中心に扱います。多くの「ちょっとした処理」はこれらの組み合わせで行うことが出来ます。

cat

cat <オプション> <ファイル>

全文を出力する。いわずもがななコマンド。
元々ファイルをつなげる(concatenate)為に実装されたコマンドですが、主に小さいファイルのダンプの為に使われています。
有用なオプションとしては-n: 行番号を出力するというものがあります。これを使うとコンパイルエラーの出た箇所の確認などに便利です。

cat run.sh -n
     1    #!/bin/sh
     2
     3
     4    # arg1 = time
     5    #
     6    #
     7
     8    cd $PBS_O_WORKDIR
     9    ./tiles$time $algname $PBS_ARRAYID $thread_number $param1 $param2 $param3 < $problem_type
    10

ちなみにcatの語源はconcatenate(つなげる)の略形です。

head

head <オプション> <ファイル>

ファイルの先頭の10行を出力する。大きなデータファイルを確認する場合や、ファイルヘッダーのみ確認する場合に便利です。

オプション-nで任意の行数を出力することが出来ます。
例えば

head -n 20 astar.dat

ならば先頭20行が出力されます。

head -n -20 astar.dat

とすると最後の20行以外のすべての行を出力します。
ただしheadと続くtailはUnixのディストリビューションによって若干異なるインターフェイスを持っています。中身は同じなので大きな違いはありませんが、manページを見ておく必要はあると思います。

ちなみにheadとtailで行番号を出力したい場合は

cat astar.dat -n | head -n -20

のようにすれば出来ます。この場合の行番号は元のファイルにおける行番号になります。

tail

tail <オプション> <ファイル>

ファイルの末尾の10行を出力する。headと相似形であるので説明はheadを見てください。

grep

grep [オプション] パターン [ファイル...]
grep [オプション] [-e パターン | -f ファイル] [ファイル...]

パーサとして優秀なコマンド。特にログから必要なデータをマイニングする場合によく使われます。
例えば、

grep cron /var/log/syslog

とおくとファイル/var/log/syslogの中で文字列"cron"を含む行を出力します。cronジョブのデバッグをする場合はこれを読むと原因がすぐに分かります。
このコマンドを熟知していれば「ログが多すぎて必要なデータが分からなくなってしまった」ということはありません。

オプションやトリックは様々あるのですべてを網羅することは出来ませんがいくつか基本のものを紹介します。

-c, --count

通常出力の代わりにパターンに一致した行が何行あったかを出力する。

-l, --files-with-matches

通常出力の代わりにパターンに一致した行のあるファイルの名前を出力する。

大規模なデータを扱う場合はgrepの通常出力が大きくなりすぎて扱いにくくなってしまうことがありあます。大きな詳細を扱うのではなく、より大きな傾向を見る場合に使いやすいオプションです。木ではなく森を見るためのコマンドといえるでしょう。

語源はテキストエディタedのGlobal Regular Expression Printから。

sort

sort [OPTION]... [FILE]...

ファイルの行をソートする。デフォルトだと先頭のフィールドに基づいてソートされる。
データは順番が重要になることがあります。例えばgnupotは一行ずつ読み込んで処理するシステムの一つです。plot with linesとするとデータ入力順に線を引いていきます。

デフォルトだと入力文字列を文字列としてみなしてソートする。どういうことかというと、以下のtest.txtをソートすると10が2よりも前にくるということです。

$ cat test.txt

0 zero
1 one
2 two
10 ten

これをsortすると、

$ sort test.txt
0 zero
10 ten
1 one
2 two

2どころか1よりも手前にきてしまいます。フィールドを数字としてみなしてソートする為には-nオプションをつける必要があります。

$ sort sort.txt -n
0 zero
1 one
2 two
10 ten

join

join [OPTION]... FILE1 FILE2

二つのファイルの内部結合(inner join)を出力する。
比較データなどを１ファイルにまとめる場合などに便利です。
-aコマンドでouter joinにすることが出来る。

結合フィールドはソートされている必要があるので、前述のsortを使うことになります。sortされていない形を保つ必要がある場合はcat -nで行番号を加えることで便宜的なイテレーション番号をつけ、それに基づいてソートをするということが出来ます。

awk

awkは一行でテキスト処理を行う軽快なコマンドであると同時に表現力豊かなプログラミング言語でもあります。awkのスクリプトを書けばこれまで述べてきたコマンドをawkで実装することも出来ます。しかしながらここでは一行でかける簡単な処理に絞って説明をします。詳しい言語実装を知りたい方は下記リンクをご参照下さい。

awkの基本骨子は

1. データファイルを一行読み込む
2. パターンマッチングを行う
3. パターンにマッチした場合に処理を行う

です。例えば

awk '/error/{print $1, $2}'

とすれば"error"の文字列を含む行の1番目、２番目の語を出力するという処理になります。

パターンマッチングの部分はgrepに似ていますが、awkの方がより深入りをして細かい場合分けや出力の指定をすることが出来ます。

データのフォーマットを変えたり、複数データから平均を計算したり、gnuplotに渡すデータを作成したり、shell scriptの中で活躍できるコマンドです。結構しっかりとした言語なので詳解な説明は下記リンクに譲ります。

＊awk参考リンク

The GNU Awk User's Guide
フルドキュメント。非常に詳解なので困ったらこれを見ればいいでしょう。

AWK入門(ドットインストール)
awkの入門の為ならこちらをお勧めします。awkのしっかりとした言語であるという側面と、簡単に記述できるという側面の両方を見ることが出来ます。

2014年11月4日火曜日

Torqueサーバーを１から立ち上げる為の７ステップ

Torqueサーバーを立ち上げるステップをまとめました。

一つ一つの要素技術の説明は良くまとまっている記事がたくさんあるのでそちらに譲り、この記事では全体の流れを説明することを目的とします。

Steps

1. 計算機にUbuntuをインストールする

2. ノード間のネットワークを構築する

3. 必要なパッケージをインストールする

4. OpenSSHサーバーを立ち上げる

5. torqueの設定をする

6. NFSの設定をする

7. メールの設定をする

適宜済んでいる設定をスキップして読んでください。

1. 計算機にUbuntuをインストールする

まず、全ての計算機に同じバージョンのUbuntuを入れる。

特に問題が起こったということは聞かないが、OSレベルの実装を多く含むことを行うことになるので念のため同じバージョンを使うべきだろう。またジョブを実行する環境が均一である方が望ましいだろう。

また、ここではUbuntuを例に説明しているが他のDebian系のOSでも同様に設定できるはず。

2. ノード間のネットワークを構築する

ヘッドノードとスレイブノードで必要なものが異なる。
ヘッドノードとは、Torqueのジョブスケジュリングや、他のノードの状態を管理するユニークなノードである。スレイブノードは実際にジョブを実行するノードである。
ヘッドノードはハブとなる計算機だが、実験自体はスレイブノードで行われる為ヘッドにはそこまでのスペックは要求されない。ただしヘッドが落ちるとシステム全体が止まってしまうので頑強なものが良い。あるいは、ヘッドノードでコンパイルなどのメモリを食う作業を禁止にするべきだろう。

2-1. 物理層のネットワークを構築する

OpenMPIなどでノード間の通信が重要である場合を除いて、特に工夫をする必要はないだろう。
スイッチングハブを購入し、LANケーブルでヘッドとノードをつなげる。2014年現在大方のLANケーブルは1Gbpsである。ので、1Gbpsよりも遅いハブを使うと重大なボトルネックになってしまう。今は1Gbpsに対応したスイッチングハブも安く購入できる。何かと通信は行うので1Gbpsのものを買った方が良いだろう。

2-2. Ubuntu上でネットワークを設定する

Ubuntuでのネットワーク設定はGUIからもCLIからも可能であるが、クラスタの設定をいちいちGUIからやるのは面倒である。CLIで同時に設定できた方がバグも少ないのでCLIをおすすめする。
こちらのUbuntu PCをルータ代わりにして、新しくLANを構築してみるという記事が非常に丁寧にかかれているのでHow Toはこちらに任せたい。ただし、ここではDHCPではなく固定IPアドレスを使う。
Torqueの場合のIPアドレスのコツは0, 1, 2と始めるのではなく、100, 101, 102と始めるということで、この方がのちのち拡張しやすい。

3. 必要なパッケージをインストールする

3-1. Torqueの為のパッケージをインストールする

ヘッドとスレイブで必要とするパッケージが異なる。

ヘッドノード
sudo apt-get install openssh-server
sudo apt-get install torque-server
sudo apt-get install torque-scheduler
sudo apt-get install wakeonlan
sudo apt-get install nfs-kernel-serversudo apt-get install mail-utils
sudo apt-get install postfix

スレイブノード
sudo apt-get install openssh-server
sudo apt-get install torque-mom
sudo apt-get install torque-client
sudo apt-get install nfs-common

さて、パッケージの説明をしたい。

openssh-server

sshサーバー。sshで入れなければ何も出来ない。セキュリティに関しては最低限パスワード認証を禁止して、ポート番号を変えておくと良い。

torque-server

torqueのサーバー。qsubやqdelなどのインターフェイスはここで定義されている模様。

torque-scheduler

ジョブスケジュラー。どのジョブをどのノードで実行するかなどの意思決定を行う。いろんな研究成果を生かした、とても賢い人工知能だと言える。

wakeonlan

コマンドラインからLANにあるコンピュータを起動することが出来る。

サーバーの稼働率や設置場所にも依るが、いちいち電源ボタンを押すのは非効率である。ヘッドからコマンドラインでスレイブノードを起動できるようすると環境構築に便利である。使い方はこちらに。

nfs-kernel-server

NFS(Network File System)の為のサーバー。NFSとは簡単に言うとネットワーク上でファイルシステムを共有するというものである。Torqueでは各ノードにあるファイルを統一するのに使われる。ユーザーはヘッドにファイルを置くことで実際の実行環境にも同様にファイルを置くことが出来るということだ。NFSとは何かについてはこちらの記事がわかりやすい。

mail-utils

postfix

メールサーバー。Torqueには実行終了をメールで知らせる機能があるが、その送信の為に必要になる。また、サーバーは特に夏にはCPU温度をモニタリングする必要がある。CPU温度が閾値を超えたらメールを送るなどの処理をする為にもメールサーバーは有用である。

torque-mom

torque-client

ジョブを受け取って実行する為のパッケージ。

3-2. 環境の移植をする

上で説明したパッケージは汎用的なものだが、環境に応じて必要なパッケージを設定する必要がある。
もし既にあるUbuntuのパッケージを移植する必要があるなら、以下の手順で移植することが出来る。

1. 移植元のコンピュータのパッケージリストを得る
sudo dpkg --get-selections | awk '{print $1}' > pkglist

2. 移植先のコンピュータにpkglistを送る(USBなどで)

3. 移植先のコンピュータでパッケージをインストールする
cat pkglist | xargs sudo aptitude install -y

これで移植元のパッケージが揃うことになります。ただしバージョンなど、すべて同じ設定になる訳ではありませんし、パッケージではないものはなくなります。

4. OpenSSHサーバー・クライアントの設定をする

4-1. 鍵の生成と交換

openssh-serverをインストールした時点でサーバーは立ち上がっている。ただしお互いにログインする為には公開鍵を共有する必要がある。

ssh-keygen

で固有の秘密鍵・公開鍵のペアを生成することが出来る。

sshサーバーは自身の~/.ssh/authorized_keysに書かれた公開鍵を持つクライアントのみとセッションを開く。ので、すべてのノードで鍵を生成し、すべてのノードのauthorized_keysにコピーする必要がある。あるいは、すべて共通の鍵を利用するということも出来なくはないが、セキュリティ上別の鍵にした方が良いだろう。

4-2. ホストの設定

/etc/hostsと/etc/hosts.allowに通信先のホスト名を記入する必要がある。

/etc/hostsはUbuntuインストール時は自分のPC名とローカルホストとipv6関連のみがかかれているはずである。ここに自分と他のノードのIPアドレスを列記する。ここでの設定はTorqueにも使われる。

/etc/hosts

127.0.0.1    localhost
127.0.1.1    yuu

10.44.0.100    head
10.44.0.101    node001
10.44.0.102    node002

# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

/etc/hosts.allowはTCP接続を許可する相手を指定できる。ここでまとめてローカルネットワーク内のホストを許可することが出来る。

/etc/hosts.allow

portmap: 10.44.0. ALLOW
lockd: 10.44.0. ALLOW
rquotad: 10.44.0. ALLOW
statd: 10.44.0. ALLOW

5. torqueの設定をする

ここの設定はTORQUEの導入・設定に譲る。よくあるエラーに対する対処法もかかれている。
ひとつ追加したいのは、サービスをリスタートすると問題が解決することが多いということである。
torque-serverなどはserviceとして常にバックで走るソフトなので、実行中に設定変更されてもすぐには反映されない。その為環境構築中はこまめに

sudo service torque-server stop
sudo service torque-scheduler stop
sudo service torque-scheduler start
sudo service torque-server start

とすると良い。これでエラーが解決することは多い。スレイブノード側の場合はtorque-momとtorque-clientでこれを行う。

この時点ジョブを実行することが出来るようになっているはずである。ヘッドノードで

pbsnodes

と打って

node001
     state = down
     np = 8
     ntype = cluster

node002
     state = down
     np = 8
     ntype = cluster

のように出力されたらノードが認識されているということである。
スレイブノードで

pbsnodes -a

と打つとstate = freeとなるはずである。
そうでない場合はここまでの設定を見直す必要がある。

6. NFSの設定をする

ヘッドノードをそのままNFSサーバーとして使うことが出来るが、ノードの数が多いクラスタの場合はヘッドとは別にNFSサーバーを置くべきだろう。その場合も設定方法に違いはない。
How To Set Up an NFS Mount on Ubuntu 14.04が良くまとまっている。
日本語だとUbuntuでNFSサーバの設定をするがわかりやすい。

7. メールの設定をする

postfixをインストールしただけだと多くのメールに送信出来ない。
それは今のメールサーバはPort 25を禁止にしているからである。Port 25はメールの為の標準のポート番号とされている。しかしそのため、多くのスパムメールはPort 25によって送られていた。それを受けてどのメールサーバもPort 25からはメールを受信しない設定をしている。

GmailのアカウントがあればGoogleのメールサーバを使うのがわかりやすい。
サーバでメールを送るまでに設定方法が書かれているのでこちらを参照されたい。

以上の７ステップでTorqueのサーバーを立ち上げることが出来る。試しに以下のコマンドを
複雑に思えるが各要素技術は概念としてはシンプルなものであり、また非常に汎用的に使われているものが多い。Torqueサーバーの有用性はさながら、これを立ち上げることは良い勉強にもなるだろう。

2014年10月17日金曜日

Twitter APIとjNLPによる評判分析

Twitter APIとjNLPで日本語からの評判分析を実装してみました。

システムの構成としては

1. Twitter APIでキーワードを含む直近100ツイートを取得
2. cabochaでツイートの本文を語句解析
3. 得られた語句をjNLPで評判分析
4. 統計値を取り出してプロット
5. 重要なツイートは全文出力

という感じです。
これを毎週cronで行うことでキーワードに対する評判を時系列データとしてプロットが出来るようにしました。

pythonでやればせいぜい100行程度で実装することが出来ます。

1. Twitter APIによるQuery

Pythonだととても簡単に実装出来ます。
Consumer Keyなどは自分のを入れてください。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# This script is to retrive search result from twitter. 
# Basic usage is for sentiment analysis.
# This will most likely to be called from analyze.sh.
#
# Usage:
#    ./twitter.py <QUERY WORD>
#
# Return:
#    List of tweets in structure below.
#    <User Name> <User ID> <Text>

from requests_oauthlib import OAuth1Session
import json
import datetime
import sys

# Twitter Authentication

CK = ''                             # Consumer Key
CS = ''         # Consumer Secret
AT = '' # Access Token
AS = ''         # Accesss Token Secert
url = "https://api.twitter.com/1.1/search/tweets.json" # タイムライン取得用のURL

# Print Date for later use

#d = datetime.datetime.today()
#date = '%s-%s-%d' % (d.year, d.month, d.day)

word = sys.argv[1]
since = sys.argv[2]
params = {"q":word, "count": 100, "since_id": since}

twitter = OAuth1Session(CK, CS, AT, AS)
req = twitter.get(url, params = params)

tweets = []

if req.status_code == 200:
    utftext = req.text.encode('utf-8')
    timeline = json.loads(utftext)
    statuses = timeline["statuses"]
    for tweet in statuses:
        tweetid = tweet["id"]
        username = tweet["user"]["name"].replace(' ', '')
        userid = tweet["user"]["id_str"]
        text = tweet["text"].replace('\n', ' ')
        tweet = {"tweetid": tweetid, "username": username, "userid": userid, "text": text}
        tweets.append(tweet)
    for tweet in tweets:
        print tweet["tweetid"], tweet["username"].encode('utf-8'), tweet["userid"].encode('utf-8'), tweet["text"].encode('utf-8')


else:
    # エラーの場合
    print ("Error: %d" % req.status_code)

2. Cabocha

Pythonで書くことも出来ましたが、簡単にbash one-linerでかけました。

cat texts$date | cabocha -f1 | awk '/名詞/{printf("%s ", $1)} /EOS/{printf("\n")}' > words$date

awkは本当にこういうとき便利ですね。

3. jNLPによる評判分析

現状、ここはかなり適当にやっています。
というかjNLPのサンプルをそのまま使っています。
cabochaによって得た名詞をそのまますべて単語単位でsentiに投げ、その総和をツイートの評判値としています。おそらくこれは良い方法ではありません。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import codecs
from jNlp.jSentiments import *
sys.stdin = codecs.getreader('utf-8')(sys.stdin)
sys.stdout = codecs.getwriter('utf-8')(sys.stdout)
txt = sys.stdin.readlines()
#print txt

jp_wn = 'wnjpn-all.tab' #path to Japanese Word Net
en_swn = 'senti.txt' #Path to SentiWordNet
classifier = Sentiment()
sentiwordnet, jpwordnet  = classifier.train(en_swn, jp_wn)


# Print pos & neg point for each line
for line in txt:
    positive_sum = 0.0
    negative_sum = 0.0
    nouns = line.split()
    for noun in nouns:
#        print noun
        try:
            positive_score = sentiwordnet[jpwordnet[noun]][0]
            negative_score = sentiwordnet[jpwordnet[noun]][1]
            positive_sum += positive_score
            negative_sum += negative_score
        except KeyError, e:
            pass
#            print 'Not found in Dictionary.'
    print positive_sum, negative_sum

4. Gnuplotでプロット

ここではpos値とneg値を分けてプロットしました。
書いてて思ったのはscatter plotの方が思いました。あとで実装してみます。
ただしpos値, neg値=0.0のツイートが多いのでそれは消した方がいいかもしれません。

gnuplot<<EOF
   set terminal postscript enhanced color
   set title "Sentimental Analysis Report of $dateform: Raw Data"
   set xrange [0:3]
   set yrange [0:1]
   set xtics 1
   set nokey
   set xtics ('Positive' 1, 'Negative' 2)
   plot '${df}pos' using (1):1 w point notitle
   set output "${df}$date.png"
   replot '${df}neg' using (1):1 w point notitle
EOF

まぁこんな感じで100行未満で実装出来ます。
色々なライブラリに依存するので、以上のコードをコピペしても動かないとは思いますが、参考になるかと。

まだ有意義なデータを取り出すに至っていませんがこれから色々動かしてみようと思います。

2014年10月4日土曜日

Cocos2d-js×Webアプリ×Google App Engine

とにかくゲームを公開したい！

個人でソフトウェアプロジェクトを作る場合は様々な制約が存在します。

お金、時間、計算資源...

なるべくお金や時間をかけずに、まずはゲーム開発を練習したい。

そういう方にはCocos2d-js×Web×Google App Engineでの開発をお勧めします。
これらのプラットフォームのメリットを紹介します。

・全て無料で出来る

Cocos2d-jsはオープンソース、GAEも基本無料ですので全て無料でスタートアップが出来ます。

・公開するまでの手順が非常にお手軽

Cocos2d-jsもGAEもデプロイが非常に簡単です。
Cocos2d-jsはコマンドラインで一行、

cocos compile -p web -m release

とだけやれば、リリースビルドが出力されます。
そしてGAEからは基本的に、

config.py update ./

とだけ打てば良い訳です。
面倒な認証などはありません。

・高いクオリティのものが簡単に作れる

Cocos2d-jsはWebアプリケーションを作るに当たってのde factoのゲームエンジンです。
非常に多機能で、煩雑なコーディングをする必要がなく、コアのデザインに集中出来ます。
また、Tiledなどのマップエディタなどがあるのでゲームを広げるのも簡単に出来ます。

要するに安い・早い・簡単ということです。
試しに動かしてみたいゲームのプロトタイプを作る時などに活用してみてはいかがでしょうか。

ついでに、Cocos2d-jsの開発環境を整える所から、Google App Engineでデプロイするまででいくつかつまずいた点があったので並べます。

Points

・setup.pyを実行後はシステムを再起動する

setup.py後に再起動しなくても、cocos newで新しいプロジェクトが作れてしまう。サンプルアプリも動いてしまう。しかし、自作のプロジェクトをコンパイルしようとすると、何故か一部失敗する。どうしてかと思っていたら、システムの再起動を忘れていました。

・相対パス

Web開発の基本ですが、改めて。Cocos2d-jsの出力するhtmlは相対パスで他のファイルを指定しています。その為、ローカルではそのまま実行することが出来ません。ChromeやFire Foxなどの開発環境を使いましょう。Web開発のIDEはブラウザと連携を取るものが多いです。例えばCocos2d-jsの推すWebStormはChrome Integrationがあり、Cocos2d-jsを使うならば最も効率の良いIDEでしょう。

・app.yamlのパス

またもパスの問題です。こちらは、Google App Engineに由来する複雑さです。
GAEにデプロイするにはapp.yamlで開発環境のパスから、Web上でのパスに対応付けをしなければなりません。これがCocos2d-jsにはなかなかに厄介。出力されるフォルダはhtml5となっているでしょうから、これをまるまる指定してWeb上でのルートディレクトリとしてしまいましょう。
GAEのローカルデバッグ環境の問題点として、app.yamlの構成上ではパスは通っていないのにローカルでパスが通っている為に異なる挙動を示してしまうことがあることです。ローカルだとうまく言っていたのに、デプロイするとfile not foundとなる場合は、app.yamlのパスを確認する必要があります。

Amazon.co.jp ウィジェット

登録: 投稿 (Atom)

2015年2月27日金曜日

【完全版】初心者・中級者・上級者 熟練度別C++の選書23冊 (和書多し)

2014年11月28日金曜日

プログラミング初心者が中級者になるために学ぶべき４つの開発ツール

1. IDE (統合開発環境)

1. ショートカットキーを覚える

2. ビルドプロセスを理解する

2. テキストエディタ

3. Git (バージョン管理ツール)

4. スクリプト言語

2014年11月25日火曜日

Cスタンダードライブラリにおけるsin関数の実装

・sin関数の計算方法

sinの実装

2014年11月17日月曜日

Unixテキスト処理コマンド集【cat, head, tail, grep, sort, join, awk】

cat

head

tail

grep

sort

join

awk

＊awk参考リンク

2014年11月4日火曜日

Torqueサーバーを１から立ち上げる為の７ステップ

1. 計算機にUbuntuをインストールする

2. ノード間のネットワークを構築する

2-1. 物理層のネットワークを構築する

2-2. Ubuntu上でネットワークを設定する

3. 必要なパッケージをインストールする

3-1. Torqueの為のパッケージをインストールする

3-2. 環境の移植をする

4. OpenSSHサーバー・クライアントの設定をする

4-1. 鍵の生成と交換

4-2. ホストの設定

5. torqueの設定をする

6. NFSの設定をする

7. メールの設定をする

2014年10月17日金曜日

Twitter APIとjNLPによる評判分析

2014年10月4日土曜日

Cocos2d-js×Webアプリ×Google App Engine

Points

【完全版】初心者・中級者・上級者熟練度別C++の選書23冊 (和書多し)