電力中央研究所 報告書(電力中央研究所報告)
報告書データベース 詳細情報
報告書番号
R02015
タイトル(和文)
重要話題発見のための大量文書自動整理システム
タイトル(英文)
Topic-Based Dynamic Document Management System for discovering Important and New Topics
概要 (図表や脚注は「報告書全文」に掲載しております)
最近の文書データベースは、大量の文書が頻繁に追加され更新されています。そのようなデータベース中の格納されたドキュメントの有効な使用法については、ドキュメントを整理し、話題の変化を追跡し続けることが不可欠です。この目的のため"独立話題分析"(ITA)に基づいて開発した大量の文書を自動的に整理するシステム「IT-DMS」(Independent Topic-based Document Management System)について記述します。新聞記事や最新技術情報ウェブ・ページおよび他のものにIT-DMSを適用した結果、IT-DMSが初期の段階で新しい話題を発見し、関連する話題を集めることが確認されました。
概要 (英文)
Recent document databases rapidly change their contents by frequent entries of new documents. For effective usage of stored documents in such a database, it is indispensable to organize the documents by major current topics and keep tracking the changes of topics. We have developed ``independent topic analysis’’(ITA) for this purpose. This report describes a newly developed automatic document organizing system ``IT-DMS’’ (independent topic-based document management system) based on ITA. We applied IT-DMS to newspapers, daily updated technical information web pages, and others. The experiment shows that IT-DMS effectively detects new topics in early stages and gathers related topics.
報告書年度
2002
発行年月
2003/04
報告者
担当 | 氏名 | 所属 |
---|---|---|
主 |
田中 真人 |
情報研究所 |
共 |
篠原 靖志 |
情報研究所 |
キーワード
和文 | 英文 |
---|---|
独立成分分析 | Independent component analysis |
文書整理 | Document Clustering |
話題追跡 | Topic Tracking |
文書検索 | Information retrieval |