IDAプラグインの更新をサボっていたら割れIDAへのリンクを貼られた

IDA 7.0が昨年9月くらいに出たので、IDA 6.xのプラグインはIDA 7.xに対応するべく更新する必要があった。 更新されたAPIへの差し替え、32bitアプリケーションだったのが64bitアプリケーションになったことによる変更などなど....

www.hex-rays.com

naoというプラグインを昔つくっていて、これをIDA 7.xに対応させる必要があり、 GitHubリポジトリにIssueをたてられたりしましたが、 IDA 7.0を当時は持ってなかったのでその旨を返信して放置していました。 すると、これを使えよ〜というノリで割れIDAへのリンクを貼られてしまった!!!! 治安が悪い!!!!!

f:id:TAKEmaru:20180214060412p:plain

社会性の塊なので、このスクショでは割れIDAへのURLの一部をマスクしています。偉い!

github.com

その裏でIDA 7.xに対応するプルリクを投げてくれた親切な人がおり、今ではIDA 7.xに対応しています。めでたしめでたし。

github.com

Rails appのコードを変更したときに、Guardに自動でRuboCop、RSpecを実行してもらう

Guardとは

Guardはファイルに変更があったときに、タスクを走らせてくれるgemで、コードを変更したときに、静的なコードチェックをしてくれるRuboCopやRSpecで書かれたテストを実行させることができる。RuboCopやテストコードを随時走らせてコーディングしていくと、問題を即座に把握できるので、プルリク前にあわててテストコードを走らせて修正....というハメに陥らなくて済む。

導入方法

Gemfile

Gemfileに以下のgemを追加。RSpec、RuboCopの導入はすでに終わっているものとする。

group :development do
  ...
  gem 'guard-rspec'
  gem 'guard-rubocop'
  ...
end

インストールも忘れずに。

$ bundle install

Guardfile

Guardの設定ファイルを作成する必要がある。以下のコマンドで生成できる。

$ bundle exec guard init rspec
$ bundle exec guard init rubocop

このようなGuardfileになる。このファイルを変更することで、監視対象とするファイルを変更したり、rspecが落ちた時の RuboCopの実行をスキップしたりできる。

guard :rubocop, cli: '--rails' do
  watch(/.+\.rb$/)
  watch(%r{(?:.+/)?\.rubocop\.yml$}) { |m| File.dirname(m[0]) }
end

guard :rspec, cmd: 'bundle exec rspec' do
  require 'guard/rspec/dsl'
  dsl = Guard::RSpec::Dsl.new(self)

  # RSpec files
  rspec = dsl.rspec
  watch(rspec.spec_helper) { rspec.spec_dir }
  watch(rspec.spec_support) { rspec.spec_dir }
  watch(rspec.spec_files)

  # Ruby files
  ruby = dsl.ruby
  dsl.watch_spec_files_for(ruby.lib_files)

  # Rails files
  rails = dsl.rails(view_extensions: %w(erb haml slim))
  dsl.watch_spec_files_for(rails.app_files)
  dsl.watch_spec_files_for(rails.views)

  watch(rails.controllers) do |m|
    [
      rspec.spec.call("routing/#{m[1]}_routing"),
      rspec.spec.call("controllers/#{m[1]}_controller"),
      rspec.spec.call("acceptance/#{m[1]}")
    ]
  end

  watch(%r{^app/api/(.+)\.rb$}) { |m| "spec/api/#{m[1]}_spec.rb" }

  # Rails config changes
  watch(rails.spec_helper)     { rspec.spec_dir }
  watch(rails.routes)          { "#{rspec.spec_dir}/routing" }
  watch(rails.app_controller)  { "#{rspec.spec_dir}/controllers" }

  # Turnip features and steps
  watch(%r{^spec/features/(.+)\.feature$})
  watch(%r{^spec/steps/(.+)_steps\.rb$}) do |m|
    Dir[File.join("**/#{m[1]}.feature")][0] || 'spec/features'
  end
end

rspecが落ちた時に RuboCopの実行をスキップしたい場合は、 以下のようにGuardfileを変更するとよい。

# This group allows to skip running RuboCop when RSpec failed.
group :red_green_refactor, halt_on_fail: true do
  guard :rspec do
    # ...
  end

  guard :rubocop do
    # ...
  end
end

Guardを実行してファイルを監視

実行するだけ。

$ bundle exec guard

おわりに

Guardを使って開発しているとプルリクする前にあわててテストを実行しなくてよくて便利。 快適railsライフを送りましょう。

LLVM bitcodeのCFGを生成する

LLVM bitcodeとは

LLVM内ではLLVM IRという中間言語表現が用いられる。 ソースコードLLVM IRコードに変換したあと、そのLLVM IRコードをターゲットのアーキテクチャのバイナリに変換...という流れでコンパイルは行われる。 LLVM bitcode は LLVM IR をバイナリファイルに収めるためのフォーマットで、LLVM IRとほぼ同等であり、相互変換もできる。 LLVM IRは.llファイル、LLVM bitcodeは.bcファイルでそれぞれ表される。

$ llvm-as sample.ll # LLVM IRをLLVM bitcodeに変換
$ llvm-dis sample.bc # LLVM bitcodeをLLVM IRに変換

LLVM bitcodeはclangに-emit-llvmオプションを指定することで生成できる。

$ clang -emit-llvm -c -g test.c

CFGを生成する

optコマンドにより、dot-cfg passを実行することでLLVM bitcodeからdotファイルを生成する。 passはLLVM内で機能を構成する1単位であり、 最適化機構などはpassとして実装され、各passはoptコマンドのオプションで指定することで実行できる。 dotファイルにはグラフ構造が書き込まれており、Graphviz内のdotコマンドを使うことで画像として出力することができる。 macだとGraphvizのインストールは脳死Homebrewでできる。

ソースコード

ここではたまたま手元にあったDynamic Opaque Predicateを施されたCのソースを使った。 Dynamic Opaque Predicateは難読化の一種で、どの分岐を通っても最終的に同じ処理を行うよう分岐を施す難読化である。 Opaque Predicateについては、 LOOPGeneralized Dynamic Opaque Predicatesがくわしい。

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char *argv[]) {
  if(argc != 2)
    exit(1);

  int x = atoi(argv[1]); 
  int y = 0;

  if (x % 2 == 0) {
    y = x + 2;
  } else {
    y = x + 100;
  }

  if (y % 2 == 0) {
    y = y + 100;
  } else {
    y = y + 2;
  }

  printf("y = %d\n", y);

  return 0;
}

コマンド

$ clang -emit-llvm -m32 -c -g test.c 
$ opt test.bc  -dot-cfg
$ dot -Tpng cfg.main.dot > test.png

生成されたCFG

f:id:TAKEmaru:20180124003448p:plain

死んだサーバーで動いていたアプリの引っ越しの歌

記憶の欠片に描いたnginx.confを見つめて
跡切れた想い出重ねる 変わらない夢に 
Oh 死んだHDD

どれだけ涙を流せば
貴方を忘れられるだろう
Just tell me my life
何処まで歩いてみても
涙で明日が見えない

以上、X JAPANのRusty Nailの替え歌でした。

www.youtube.com

We are X!!

2017年のOSSへのコントリビューションまとめ

年末ということで今年のOSSへのコントリビューションを振り返る。来年はもっとやっていきたい。

Metasploit

github.com

GSoCにMetasploitで参加していたので、それで結構プルリクを送った。 GSoC 2017にmetasploitで採択された。 - 脱力系日記

Pull Requests · rapid7/metasploit-framework

後半でかいissueを解決しようとしてたけど、ハマって期間中にプルリクを送れなかった。再度トライしたい。

casein

caseinはRuby on RailsCMSを作るためのgemである。

github.com

scaffoldをするときに指定した名詞が複数形だったときエラーが出るので修正するプルリクを送った。 このgemはバイトでよく使っている。

Pull Requests · russellquinn/casein

ldap3

ldap3はldapを扱うためのPythonライブラリである。

github.com

サンプルコードが間違っていたのでプルリクを送った。

Pull Requests · cannatag/ldap3

dagger

daggerはMachO、ELF向けのLLVM IRへのデコンパイラLLVMをforkして作られている。

github.com

ビルド方法が間違ってたので修正した。

Pull Requests · repzret/dagger

McSema

IDAのapiを使ったLLVM IRへのデコンパイラである。 「funded by and used in research for DARPA and the US Department of Defense.」なので強そう。

github.com

READMEのリンク切れを修正した。クソプルリク。

Pull Requests · trailofbits/mcsema

Linux Inside

Linux Insideはlinuxの内部構造についてのフリーの本で有志の手でロシア語や中国語への翻訳が進められている。

github.com

これはOSSにプルリクを送ったというわけではないけど、日本語版のリポジトリを作って翻訳を進めている。

github.com

最近やれてないので、誰かプルリクしてほしい。

Linux Rootkit Internalsという題でLTをしてきた

12/23にあったCyber Wargame Christmas Party (大和セキュリティ勉強会)でLinux Rootkit Internalsという題でLTをしてきた。

atnd.org

speakerdeck.com

GitHubLinux rootkitのコードがいろいろ上がっていて、それが結構おもしろくて最近ちらちらコード読んでいたので、それらについて話してきた。 勢いのあるスライドを作りたい。 なんか予想外に有名な人がLTすることになっていてビビってたけど無事に終わってよかった。 検知手法についてはまた後日...

機械学習を使っているアンチウイルスを機械学習を使ってバイパスする「gym-malware」の紹介

マルウェアの分類のために使われている機械学習のblind spotを潰すために、機械学習を使っているアンチウイルス機械学習を使ってバイパスする研究が最近活発になってきている。 この記事では、black hat USA 2017で発表されたBot-Vs-Bot-Evading-Machine-Learning-Malware-Detectionとその関連研究を紹介する。これは、情報セキュリティ系論文紹介 Advent Calendar 2017 - Adventarの18日目の記事である。

背景

機械学習マルウェアファミリを一般化できるので、シグネイチャを持たない未知のマルウェアの検出に利用されているが、機械学習のモデルには盲点(blind spot)があり、それにより誤認識を引き起こす。機械学習を用いた画像認識が、ノイズを混ぜられた画像を誤認識することは以前話題になった。

f:id:TAKEmaru:20171218164343p:plain
バスの画像をダチョウと認識している。https://www.popsci.com/byzantine-science-deceiving-artificial-intelligence

画像認識と同じくアンチウイルスも誤認識をすることがあり、それによってアンチウイルスをバイパスされてしまう。

関連研究

当然ながら、機械学習をバイパスするにはモデルの情報を知っているほうが楽で、モデルに関する情報がなければ難易度が上がる。しかしアンチウイルスソフトの開発時にどのようなモデルを使っているか知る術はない。

f:id:TAKEmaru:20171218180411p:plain
https://www.blackhat.com/docs/us-17/thursday/us-17-Anderson-Bot-Vs-Bot-Evading-Machine-Learning-Malware-Detection.pdfより引用

ターゲットとなる機械学習のモデルを知っている状態でそれをバイパスする研究には、Androidマルウェア向けのAdversarial Perturbations Against Deep Neural Networks for Malware ClassificationマルウェアのC2サーバーとの通信を確立するDGA(domain generation algorithms)の検出/生成を目的としたDeepDGAがある。

また、ターゲットとなる機械学習のモデルが未知の状態でBlack-Box Attackを行う先行研究には、PDFマルウェアをターゲットとしたuvasrg/EvadeML: An evolutionary framework for evading machine learning-based malware classifiers.、 GANでPEバイナリの生成を試みるGenerating Adversarial Malware Examples for Black-Box Attacks Based on GANがある。Generating Adversarial Malware Examples for Black-Box Attacks Based on GANでは実行ファイルとしてのフォーマットを保つことは出来ていない。

gym-malware

この研究では、OpenAI gymという強化学習を行うプラットフォームの上にマルウェアを生み出す環境をgym-malwareとして実装することでアンチウイルスをバイパスするPEバイナリを作り出している。

github.com

OpenAI gymは強化学習におけるAction、Reward、Stateを以下のように定義している。

f:id:TAKEmaru:20171218200452p:plain
https://www.blackhat.com/docs/us-17/thursday/us-17-Anderson-Bot-Vs-Bot-Evading-Machine-Learning-Malware-Detection.pdfより引用

Action

  • 使用されないIATに関数を追加する
  • 既存のセクション名を操作する
  • 新しい(未使用の)セクションを作成する
  • セクションの最後の余分なスペースにバイト列を追加する
  • 元のエントリポイントにただジャンプするだけの新しいエントリポイントを作成する
  • 署名を操作する(中断する)
  • デバッグ情報を操作する
  • バイナリをパックまたはアンパックする
  • PEヘッダのチェックサムを変更する
  • PEファイルの最後にバイト列を追加する

ここでのPEフォーマットに関する操作にはLIEF - Library to Instrument Executable Formatsが用いられている。

Reward

ここでのアンチウイルスには、10万個のマルウェアと良性のバイナリを訓練し、受信者動作特性スコア(ROC AUC)が0.96になる勾配ブーストされた自前の決定ツリーモデルが用いられている。

State

以下のような静的なPEバイナリの属性を2350次元に圧縮している。

  • 一般的なファイル情報(サイズ)
  • ヘッダー情報
  • セクション特性
  • インポート/エクスポートされた関数
  • 文字列
  • ファイルバイトとエントロピーヒストグラム

実験結果

VirusShareで配布されているマルウェアを用いて、15時間で100K回の試行を行った。 black box attackにより生み出されたマルウェアの非検出率(16%)がscore-based attack (機械学習モデルがスコアを返す)のもの(14%)よりも高かった。

また、生成した20個のサンプルバイナリをVirusTotalにアップロードし、検出率の中央値が31/63から18/63に下がったことを確認した。

今後

機械学習を用いられているセキュリティ製品は増えてきており、機械学習のモデルのblind spotを探す研究動向は今後注視していきたい。

おまけ1

上のツイートではマルウェアのPEヘッダの実行に影響しない部分を変更しバイパスを試みているがCylanceは検出している。 こういうケースにはシグネイチャベースより機械学習を使う方が有用そう。

おまけ2

Fully undetectable backdooring PE file

上のリンクでは適当なバイナリ(ここでは7zip)に新しくセクション作ってshellcode置いて、そこに飛ぶようにパッチ当ててもアンチウイルスは検知しないという実験をしている。いい話。