Are you 裕司 安元?

Claim your profile

Publications (2)0 Total impact

  • [Show abstract] [Hide abstract]
    ABSTRACT: 平成17年3月10日情報処理学会自然言語処理研究会 キーワードの重要度をどのように設定するかは,検索システムの実現において重要な課題 である.本稿では各大学教員が書いた研究活動概要の文書を対象として,重要なキーワードがど のようなものであるかについて,単語の出現頻度に基づき分析を行った.Web 文書のように文書 が多種多様な場合には,単純な出現頻度よりtfidf のような値が標準的に用いられる.しかし,同 種の文書群を対象とする場合には,共通に現れる高頻出の単語も特徴的な単語として考えなけれ ばならない.本稿では,筆者らが開発している九州大学研究者データベースに蓄積された約2000 人の教員情報を具体的対象として,単語の出現頻度,使用者数,複数回使用者数の3 つの尺度が 分野特定性の識別に有効であることを示す. It is an important problem in the search engine how to set the degree of importance to each key word. In this report, we will analyze the frequent words that appear in the documents of outline for university researchers. We consider the DF (document frequency) and TF (term frequency) instead of other standard evaluation, e.g., tfidf. The evaluation tfidf is useful for a variety of documents like Web documents to eliminate frequent words that commonly appear in any sentences. Nevertheless, such frequent words are important to the documents in specific area as this report considers. We analyzed frequent words in documents of more than 2000 university researchers in Kyushu University.
  • [Show abstract] [Hide abstract]
    ABSTRACT: 平成17年7月22・23日情報処理学会第168回自然言語処理研究会 検索エンジンによるキーワード検索をするとき、検索結果が数千件もあり多過ぎたり、数件しかなく少な 過ぎて求める文書が得られないことがある。前者では検索を狭めるため粒度がより細かいキーワードが必要であり、 後者では検索を広めるためより粒度が荒いキーワードが必要である。また、検索対象とする文書群に応じて単語の粒 度も違ったものとなる。本稿では、二つの文書群における単語の文書頻度を比較することにより、それぞれの文書群 におけるキーワードの専門性とその文書群におけるキーワードの粒度の評価法を提案する。 Appropriate choice of query word are crucial to obtain a good search result. If it is too vague or too general, several thousand of results would be obtained. On the other hand, if it is too specific, the number of documents retrieved would be too few. More fine keywords are necessary in the former and query expansion is necessary in the latter. Speciality and granuality are two key aspects to evaluate appropriateness of of keywords in searching documents. This report proposes a method to analyse speciality and granularity of keywords using global and local document frequencies of the keywords.