電力中央研究所 報告書(電力中央研究所報告)
報告書データベース 詳細情報
報告書番号
R00027
タイトル(和文)
作業と関連付けた蓄積文書の自動的再整理手法
タイトル(英文)
Automatic-grouping of stored documents related to current tasks
概要 (図表や脚注は「報告書全文」に掲載しております)
本報告書では、作業と関連する蓄積文書を自動的にグループ化する手法を提案する。提案手法は、低次多項式 SVM (Support Vector Machine) を蓄積文書のグループ化に適用し、その教師例として現在の作業で利用している文書を用いている。実験によって提案手法の次の特徴を示した。一般に文書のグループ化には線形SVMが適している。しかし、利用と関連付けたグループ化の場合、低次多項式SVM を用いて、抽出したグループの精度を線形SVMと比較して改善することができた。低次多項式SVMの計算時間は、線形SVMとほぼ同等である。通常のワークステーションを用いて1秒以下で分類することが可能である。この実験結果は提案手法の有効性を示している。多項式SVMが線形SVMより優れた結果を示しているのは、話題やキーワードで分類された文書に比べ、作業で利用している文書の間の語彙の類似性が低いためである。
概要 (英文)
This Report proposes a method of automatic grouping of stored documents related to current tasks. The method uses Support Vector Machine (SVM) with low-dimension polynomial kernel for the grouping of stored documents. The training data for the grouping of stored documents with SVM are the documents used in current tasks. With a series of experiments, this report shows the features of the method.SVM with linear kernel is suitable for document grouping generally. But, in this case, with low-dimension polynomial kernel, the method improve the precision of the retrieved document groups as compared with linear kernel.The computing time of SVM with low-dimension polynomial kernel is comparable to the computing time of SVM with linear kernel. Using ordinary workstation, it takes less than one second to computing SVM's classifier with a hundred of training documents.The result shows the effectiveness of the method.The reason of polynomial kernel's superiority to linear kernel is that the used documents in a task have less common vocabulary than documents grouped by topic or keywords.
報告書年度
2000
発行年月
2001/04
報告者
担当 | 氏名 | 所属 |
---|---|---|
主 |
嶋田 丈裕 |
情報研究所 |
キーワード
和文 | 英文 |
---|---|
文書管理 | Document Management |
自己組織化 | Self Organization |
機械学習 | Machine Learning |
テキストマイニング | Text Mining |
情報共有 | Information Sharing |