【ネットワークスペシャリスト】ネスペ 午後の解答に出てくる単語を抽出
※去年Qiitaにアップした内容になります。
普段パスコンやスマホのため漢字を忘れてしまうため
午後の回答に使用する頻出漢字を調べたものになります。
後はこんな感じのキーワードがあるんだなっていうのを覚えておくと回答しやすいかも?
■抽出した手順
①IPAサイトからネットワークスペシャリストの午後の解答PDFをダウンロード
※平成24年度~29年度まで
②PDFファイルからテキスト抽出
PDFMinerでPDFから日本語テキストを抽出する
https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d
そのままだとPDFにセキュリティがかかっているため
下記コマンドにて解除
qpdf --decrypt --password='' encrypted.pdf decrypted.pdf
③上記で抽出したテキストを一つのテキストファイルに纏めて、
さらに手動で【出題趣旨】や図の解答、IPアドレスなど不要なものを削除
形態素解析をして日本語の文章を単語区切りにする方法
https://ai-kenkyujo.com/2017/10/02/word/
※今回は単語数500にして抽出して、どう考えても不必要な単語は削除しました。