はじめに
Office製品は2007から、doc,xls,pptなど独自バイナリ形式から、Office Open XMLマイクロソフトの独自規格XML形式で保存されるようになりました。
これらのxmlをzipにて圧縮したものをdocx,xlsx,pptxとしました。
これを利用して、一括で画像を取り出す方法を紹介します。
取り出し方法
ファイル名の拡張子がdocx,xlsx,pptxに限ります。
まず、検証でdocxをダンプしてみます。
C言語とかやってた兄貴たち。。ダンプとか懐かしいでしょ・・某ファイラーのキャプチャです。
上記のダンプで先頭がPK(ローカルファイルヘッダ)になっています。これはzip形式のフォーマットで保存されていることを示します。lzhなどはR.-lhなどになります。
たぶん、昔はpkzipとかいってて。PKWARE社がつくっていたいのでその頭文字?
これを、コピーしておき、バックアップのファイルの拡張子をzipに変更します。
ファイル名.docx.zipなどでも可能
解凍ソフトでみてるとこんな感じ
Wordフォルダーのmediaフォルダーに使用している画像がすべてあります。
このmediaフォルダーを一括解凍すれば、便利です。
さいごに
ワードだけじゃなく。エクセル、パワーポイントもx付きの拡張子ならできますよ。
また、XML形式で保存のものが多いので、以外にzipとか変更してみると中身みれちゃいますよ。。jarとか...
では。