TOP > 未分類 > title - Word(ワード)のデータの中身見たことありますか?Wordデータの断片化問題

ITやモバイル機器、iPhone、手帳や本など。
MENU

Word(ワード)のデータの中身見たことありますか?Wordデータの断片化問題

2018021000.png


情報管理LOGの@yoshinonです。
書類作成などでかなり日常的に使われているWordですが、これのデータの中身を見たことがありますか?案外サクッと見られてしまうのです。今回はデータの中身を見る方法から、さらにそのデータの中身の断片化問題まで含めて取り上げたいと思います。

  
【 ワードのデータの中身見たことありますか?Wordデータの断片化問題 】  

 1.Wordファイルのデータの中身を見る方法

 2.Word本体のデータを見てみる

 3.WindowsにおけるWordファイルの断片化問題







checkmark.png 1.Wordファイルのデータの中身を見る方法

まずはWordファイルのデータの中身を見てみたいと思います。
Wordファイルは、XMLデータの集合体だというのは意外と有名な話です。これを見るためには、一度Wordファイルをzipに直します。この直接圧縮するのではなく、拡張子をzipに変えるだけにしてください。

2018021001.png


zipファイルに変更されました。

2018021002.png



今度は、それを解凍ソフトで解凍します。

2018021003.png



そうすると、Wordファイルの中身を見ることができるなのです。
Wordファイルの中身はこんな感じです。

2018021004.png




checkmark.png 2.Word本体のデータを見てみる

Wordのファイルツリーはこのような形になっています。

2018021005.png


さて、先程中身を取り出したWordファイルの文章は、どこに入力されているのかというと…ここに格納されています。

2018021006.png



これをメモ帳で開けてみます。
そうすると、中身を見ることができるのです。
出てきた中身は、このようになっています。まさにXMLで定義されたファイルになっていますね(しかもあまり美しくない)。

2018021007.png




checkmark.png 3.WindowsにおけるWordファイルの断片化問題

私は、Wordファイルには、かなり致命的な欠陥があると思っています。たぶん、Wordで長文執筆した人は経験があるのではないかと思うのですが、書けば書くほど、どんどん重たくなってくるという問題が発生します。
これは、Wordファイルの断片化が起こっていると考えられます。
これについては、実は既に指摘されていたりします。
昨年、話題になった記事です。

Wordさんは今日もおつかれです - Qiita
Wordさんは今日もおつかれです - Qiita






この記事では、MacのWordについて取り上げられてますが、ウィンドウズのWordにおいても(ここまで酷くはないけど)同様であると考えられます。

先ほどのファイルに「Wordファイル断片化」と書き加えたモノ。

2018021008.png


<w:body>
<w:p w:rsidR="00F91171" w:rsidRDefault="00FB5B5A">
<w:r>
<w:t>ワードファイルの実験です。</w:t>
</w:r>
</w:p>
<w:p w:rsidR="002171AD" w:rsidRDefault="002171AD"/>
<w:p w:rsidR="002171AD" w:rsidRDefault="002171AD">
<w:pPr>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
</w:pPr>
<w:r>
<w:t>Word</w:t>
</w:r>
<w:r>
<w:t>ファイル断片化</w:t>
</w:r>
<w:bookmarkStart w:id="0" w:name="_GoBack"/>
<w:bookmarkEnd w:id="0"/>
</w:p>
<w:sectPr w:rsidR="002171AD"><w:pgSz w:w="11906" w:h="16838"/>
<w:pgMar w:top="1985" w:right="1701" w:bottom="1701" w:left="1701" w:header="851" w:footer="992" w:gutter="0"/>
<w:cols w:space="425"/>
<w:docGrid w:type="lines" w:linePitch="360"/>
</w:sectPr>
</w:body>
view raw Word_test hosted with ❤ by GitHub




その後に、「Wordファイル断片化」の文章の間に「の」を加えて、「Wordファイル断片化」としてみます。そうすると…

2018021009.png


<w:body>
<w:p w:rsidR="00F91171" w:rsidRDefault="00FB5B5A">
<w:r>
<w:t>ワードファイルの実験です。</w:t>
</w:r>
</w:p>
<w:p w:rsidR="002171AD" w:rsidRDefault="002171AD"/>
<w:p w:rsidR="002171AD" w:rsidRDefault="002171AD">
<w:pPr>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
</w:pPr>
<w:r>
<w:t>Word</w:t>
</w:r>
<w:r>
<w:t>ファイル</w:t>
</w:r>
<w:r w:rsidR="008A19CA">
<w:t>の</w:t>
</w:r>
<w:bookmarkStart w:id="0" w:name="_GoBack"/>
<w:bookmarkEnd w:id="0"/>
<w:r>
<w:t>断片化</w:t>
</w:r>
</w:p>
<w:sectPr w:rsidR="002171AD">
<w:pgSz w:w="11906" w:h="16838"/>
<w:pgMar w:top="1985" w:right="1701" w:bottom="1701" w:left="1701" w:header="851" w:footer="992" w:gutter="0"/>
<w:cols w:space="425"/>
<w:docGrid w:type="lines" w:linePitch="360"/>
</w:sectPr>
</w:body>
view raw Word_test02 hosted with ❤ by GitHub




ただ単に書式も何も変えずに「の」を加えただけにもかかわらず、余計なタグが付け加わっていることが分かります。 文章作成時にカット&ペースを繰り返したり、文章の途中に文字を加えたりするなどすると余計なタグがどんどん付け加わってくるのです。これに、さらに書式を変更したりすると、もっとカオスなことになってくるというのは、容易に想像がつきますね?

さらに、「Wordファイル断片化」を「Wordファイル断片化問題」と文章中に挿入してみると…
2018021010.png

<w:body>
<w:p w:rsidR="00F91171" w:rsidRDefault="00FB5B5A">
<w:r>
<w:t>ワードファイルの実験です。</w:t>
</w:r>
</w:p>
<w:p w:rsidR="002171AD" w:rsidRDefault="002171AD"/>
<w:p w:rsidR="002171AD" w:rsidRDefault="002171AD">
<w:r>
<w:t>Word</w:t>
</w:r>
<w:r w:rsidR="009E27EA">
<w:t>の</w:t>
</w:r>
<w:r>
<w:t>ファイル</w:t>
</w:r>
<w:r w:rsidR="009E27EA">
<w:t>の</w:t>
</w:r>
<w:r>
<w:t>断片化</w:t>
</w:r>
<w:r w:rsidR="009E27EA">
<w:t>問題</w:t>
</w:r>
<w:bookmarkStart w:id="0" w:name="_GoBack"/>
<w:bookmarkEnd w:id="0"/>
</w:p>
<w:sectPr w:rsidR="002171AD">
<w:pgSz w:w="11906" w:h="16838"/>
<w:pgMar w:top="1985" w:right="1701" w:bottom="1701" w:left="1701" w:header="851" w:footer="992" w:gutter="0"/>
<w:cols w:space="425"/>
<w:docGrid w:type="lines" w:linePitch="360"/>
</w:sectPr>
</w:body>
view raw Word_test03 hosted with ❤ by GitHub



となるのです。
たったこれだけでも、こうなるのですから、長文になるとお察しですね。



 eyeglass2.png 情報管理LOGの眼
 どうしてこういう仕様にしたのやら…

そもそもどうしてXMLでデータを組もうとしたのか…と言っても始まらないかもしれないのですが、初期のOfficeの制作者陣は、まさかこんなにもこの技術が引っ張られるとも考えていなかったのかもしれません。とはいえ、こうやってファイルの中身がどんどん意味もなく重たくなってくる問題は、いずれかの時期に解消してもらいたいものだと思います。少なくとも、タグクリーン機能でも良いから付けてもらえると嬉しいですよね。


例の「東ロボくん」の研究が、関するまとまった形の本になりました!



関連記事

Zenback読み込み中です。

Leave a reply






管理者にだけ表示を許可する

該当の記事は見つかりませんでした。
SEO
loading
情報管理LOG