零細システムエンジニアの備忘録

RPA、サーバ、ネットワークに関する設定メモ、導入相談もコメント欄やメールに頂ければお答えしますのでお気軽にご相談下さい(^^)

【ネットワークスペシャリスト】ネスペ 午後の解答に出てくる単語を抽出

※去年Qiitaにアップした内容になります。
普段パスコンスマホのため漢字を忘れてしまうため
午後の回答に使用する頻出漢字を調べたものになります。
後はこんな感じのキーワードがあるんだなっていうのを覚えておくと回答しやすいかも?

■抽出した手順
IPAサイトからネットワークスペシャリストの午後の解答PDFをダウンロード
平成24年度~29年度まで

②PDFファイルからテキスト抽出

 PDFMinerでPDFから日本語テキストを抽出する
  https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d

 そのままだとPDFにセキュリティがかかっているため
 下記コマンドにて解除

qpdf --decrypt --password='' encrypted.pdf decrypted.pdf

③上記で抽出したテキストを一つのテキストファイルに纏めて、
さらに手動で【出題趣旨】や図の解答、IPアドレスなど不要なものを削除

形態素解析をして日本語の文章を単語区切りにする方法
https://ai-kenkyujo.com/2017/10/02/word/
※今回は単語数500にして抽出して、どう考えても不必要な単語は削除しました。

f:id:acind:20191109224152j:plain