ajax로 검색한 결과 :: 시소커뮤니티[SSISO Community]

정치	경제
문화	칼럼
비디오게임	스포츠
핫이슈	TV
포토	온라인게임
PC게임	에뮬게임
라이프	사람들
유머	만화애니
방송	1
1	1
1	1
1	1
1	1
1

ajax로 검색한 결과

등록일:2008-04-07 11:43:44
작성자:

제목:시소러스 | ◈자연어학◈

9장 시소러스, 통제 어휘집과 메타데이터

웹사이트는 복잡한 종속 관계를 가지고 상호 연결된 체계 집합이다.

<메타데이터>와 <통제 어휘집>은 이러한 체계의 네트워크 관계를 볼 수 있는 훌륭한 렌즈다.

메타데이터가 집약된 대부분의 대형 사이트에서, 통제 어휘집은 체계를 결합하는 접착제 역할을 시소러스는 사용자 경험을 더욱 만족시키고, 매끄럽게 하는 윤활유 역할을 한다.

메타데이터

1) 메타데이터의 정의 : 애플리케이션이나 환경 내에서 다루어지는 다른 데이터의 문서화나 이런 데이터와 관련된 정보를 제공하는 정의적 성격을 지닌 데이터.

2) 메타데이터의 예 : 데이터 구성 요소나 속성(이름, 크기, 데이터 형태 등), 레코드나 데이터 구조(길이, 필드, 칼럼 등), 이 데이터와 관련된 데이터(데이터 위치, 연관성, 소유자 등), 문맥, 품질, 상태 또는 데이터 특징에 대한 설명 정보

3) 고급 응용 : <컨텐츠 관리 체계>와 <통제 어휘집>을 사용하여, <분산 환경>과 강력한 네비게이션 을 지원하는 메타데이터 집약적인 <동적 웹사이트>를 만들 수 있다. 이제는 이 문서를 분류 계통도(Taxonomy)의 어디에 둘 것인지 묻지 말고 이 문서를 어떻게 설명해야 하는지 물어야 한다.

통제 어휘집

통제 어휘가 가장 간단할 때는 동의어 순환 목록으로 유사한 용어의 목록이거나 전거파일(Authority File) 형태로 우선어 목록이다. 용어간 계층적 관계를 정의(예를 들어 더 넓은, 더 좁은)하는 것은 분류 체계와 관련이 있고, 개념간 연고나 관계 모델(참조 see also, 관련 참조 see related)은 시소러스와 관련이 있다.

(어휘)

동의어 순환 목록 전거 파일 분류체계 관련어집

단순 ß---------------------------------------------------à 복잡

유사성 계층 구조 연관성

(관계)

표) 통제 어휘집의 형태

동의어 순환 목록

동의어 순환 목록은 검색 목적으로 정의한 단어를 모아 연결한 것으로 실제는 동의어가 아니다. 여기에는 원래 명칭, 잘못된 표기, 관련 상품의 명칭 등이 포함되어 있다.

실제 검색 로그를 조사하고 사용자와 인터뷰해 보면, 사람들이 동일한 정보를 찾기 위해 서로 다른 용어로 검색하는 것을 알게 된다.

동의어 순환 목록을 사용하지 않으면 예를 들어 pocketpc를 찾고자 하는 사람이 pocketpc를 입력했을 경우엔 단 한건도 찾지를 못하다가 pocket pc 로 띄어서 입력했을 경우엔 수십건의 결과를 쏟아내는 문제가 발생할 수 있다.

그러나 여기엔 몇가지 문제가 있다. 즉, 사용자는 자신이 사용하지 않은 키워드로 검색되는 결과에 대해서 혼란스러워 할 수 있다는 것이다. 사용자는 보이지 않는 기능 구현을 좋아하지 않는다고 한다. 또한 호출 수준은 획기적으로 높일 수 있으나 반대로 정밀도 수준을 감소시킨다.

동의어 순환 목록을 사용하여 검색 결과의 상단에 정확하게 키워드와 일치하는 순서로 목록화 하여 보여 주거나, 첫 검색에서는 동의어 순환 목록을 사용하지 않고, 검색 결과가 매우 적거나 0으로 나왔을 때만 검색 확장의 개념의 옵션을 사용자에게 제공할 수 있다.

동의어 순환 목록은 통제 어휘집의 매우 단순하고 유용한 형태다.

전거 파일(Authority Files)

전거파일은 우선어나 승인된 값의 목록이다. 변수나 동의어를 포함하지 않으며 제한된 영역에서 특정 개체에 대해 적합한 이름을 정의하기 위해 주로 도서관이나 정부 기관에서 전통적으로 사용해 왔다.

컨텐츠 저자와 색인 작업자는 정확하고 일관성 있는 용어를 사용하기 위해 전거 파일을 사용한다. 실제로 전거 파일은 우선어와 유사 용어를 동시에 포함한다. 즉 전거 파일은 하나의 용어가 우선어나 승인된 값으로 정의된 동의어 순환 목록이다.

전거 파일을 사용할 가치는 아래와 같이 정의할 수 있다.

l 우선어를 효율적이고 일관되게 사용할 수 있는 유용한 도구

l 각 유사 용어 집합을 구분하는 유일한 식별자 이므로 단어를 좀더 효율적으로 추가, 삭제 수정할 수 있음.

l 사용자에게 올바른 철자 지도, 산업 전문 용어를 설명, 브랜드 인지도를 심어줌.

l 분류 체계, 네비게이션 바, 색인을 설계할 때 일관성 있는 용어 사용으로 혼란을 줄임

분류 체계

분류 체계는 우선어를 계층적으로 배열한다. 계층화의 예로 야후와 같이 브라우징 가능한 앞단의 계층 구조는 가시적이며, 사용자 인터페이스의 핵심 부분이다. 또한 문서 조직화화 태그 작업을 위해 인포메이션 아키텍처 작업자, 저자, 색인 작업자가 사용하는 백엔드(back-end)의 도구다.

듀이십진분류법은 1876년에 만들어진 이후 세계적으로 가장 보편화된 분류 체계다.

시소러스

시소러스의 전통적인 사전적 정의는 대부분의 관련어와 상대어를 포함한 동의어와 반의어에 관한 책이라고 할 수 있다. 이말은 시소러스는 참고서처럼 개념의 의미론적 네트워크며, 단어를 동의어, 동음이의어, 반의어, 광의어, 협의어, 관련어로 연결한다.

이 책에서 말하는 시소러스는 온라인 데이터베이스의 형태로, 웹사이트나 인트라넷의 사용자 인터페이스와 통합되어 있다. 전통적인 시소러스가 하나의 단어에서 다수 단어를 활용하는데 도움을 준다면 이 책에서 말하는 시소러스는 그 반대다.

가장 중요한 시소러스의 목적은 동의어 관리이며, 많은 동의어나 그 단어의 유사 형태를 하나의 우선어나 개념으로 연결한다. 따라서 언어가 가진 모호성으로 인해 정보를 찾지 못하는 것을 방지할 수 있다.

다시 정확하게 정의를 하면 시소러스는 검색을 향상시키기 위해 동일한 관계, 계층적 관계, 연관 관계를 구분하는 통제 어휘집이라고 할 수 있다.

전문 용어

통제 어휘집과 시소러스 사용 시 사용하는 전문 용어는 아래와 같다.

l 우선어(PT, Preferred Term) : 승인된 용어나 값, 주제 제목 또는 설명. 모든 관계는 우선어를 중심으로 정의된다.

l 유의어(VT, Variant Term) : 우선어는 아니지만, 유의어 또는 우선어의 동의어와 비슷한 의미가 있는 용어다.

l 상위어(BT, Broader Term) : 상위어는 우선어의 상위에 속하며 계층에서 바로 위 단계에 속함.

l 하위어(NT, Narrower Term) : 우선어의 하위에 속하며 계층에서 바로 아래 단계에 속함.

l 관련어(RT, Related Term) : 연관성 관계에 의해 우선어와 연결되는 것으로 주로 참조(see also)를 사용한다.

l Use(U, Use) : 전통적인 시소러스에서 색인 작업자와 사용자를 대상으로 유의어 use 우선어 형태를 자주 사용하였다. 그러나 대부분의 사람들은 see에 더 익숙하다.

l Used For(UF) : 우선어 UF 유의어 형태로 상호 관계를 나타낼 때 사용한다. 우선어 레코드의 모든 유의어 목록을 나타낼 때 사용한다.

l 정의 영역(SN, Scope Note) : 우선어를 정의하는 하나의 형태로 해당 어휘의 의미를 의도적으로 제한하여 모호성을 제거할 때 사용한다. 그러나 서로 다른 개인적 경험에 따라 그 의미론적 관계에 대해 의문을 가질 수도 있다. 그러나 여기엔 정답이 없다. 시소러스 설계에는 정해진 기준이 없다. 단지 조사 정보를 기반으로 한, 전문적인 판단이 기준이 된다

시소러스의 실제

실제로 시소러스를 활용하는 좋은 웹사이트의 사례를 찾기는 힘들다. 왜냐하면 최근까지도 이를 적극적으로 구축하려는 투자가 없었고 웹사이트가 시소러스를 사용하더라도 외부로 잘 드러나지 않기 때문이다.

그러나 곧 웹사이트들은 시소러스 구축에 관심을 갖게 될 것이다. 왜냐하면 시소러스는 웹사이트나 인트라넷의 성장 규모나 중요성을 다루는 핵심 도구기 때문이다.

시소러스를 적극적으로 활용하는 사이트 예로 팝메드(PubMed), MeSH, 아마존을 들 수 있다.

아마존은 계층적 분류와 주제 제목을 활용하여 검색과 브라우징의 강력한 옵션을 제공한다. 이러한 옵션은 사용자가 반복적으로 질의를 변경할 수 있게 한다.

시소러스를 사용하는 이점 중 하나는, 시간이 지날수록 사용자 인터페이스를 구축하고 고급화하는데, 강력한 힘과 유연성을 제공한다는 것이다. 그러나 한 번에 이러한 모든 기능을 활용할 수 는 없다. 각 기능을 사용자 테스트하여 정보를 얻고 수정해 나가야 한다.

시소러스 형태

고전적 시소러스

검색과 색인을 할 때 사용한다. 색인 작업자는 문서 수준의 색인 작업을 할 때, 우선어와 유의어를 대응시키는 데 사용하고, 검색자는 시소러스 역할을 아는 것과 상관없이 시소러스를 사용한다.

질의어는 시소러스의 풍부한 어휘와 대응되어 동의어 관리, 계층적 브라우징, 연관적 연결을 가능하게 한다.

완전하고 통합된 시소러스 형태의 시소러스다.

색인 시소러스

고전적 시소러스를 구축하는 것이 항상 필요하거나 가능한 것은 아니다. 통제 어휘집과 색인 문서를 개발할 수 있는 능력은 있지만, 동의어 관리 기능을 검색 엔진에 포함시킬 수 없는 경우도 있고 검색 엔진의 주요 부분을 수정하지 않고는 해당 기능을 지원하지 않을 수도 있다. 이들 경우에 통제 어휘집 색인을 할 수는 있지만, 검색을 할 때는 사용자의 질의어와 우선어를 대응시키는 기능을 사용할 수 없다. 이것은 심각한 결함이다.

그러나 시소러스를 색인 하면 좋은 몇 가지 이유가 있다.

l 프로세스를 색인하고 일관성과 효율성을 향상시킨다.

l 우선어를 브라우징 할 수 있으며, 사용자가 단일 접속지에서 특정 주제나 제품과 관련한 모든 문서를 찾을 수 있다.

시소러스 색인은 다음 단계인 고전적 시소러스를 구축할 수 있는 발판이 된다. 개발된 통제 어휘집을 문서에 적용하면, 사용자 인터페이스 수준에 역량을 집중시킬 수 있다.

이것은 브라우징 가능한 색인에 어휘 항목을 추가 시켜 검색 기능을 강화하고 결과적으로, 시소러스 전체를 가치 있게 하여 검색과 브라우징 경험을 강화시킬 수 있다.

검색 시소러스

고전적 시소러스가 실용적이지 않은 경우가 있다. 수준의 색인을 못하게 하는 콘텐츠의 경우로 제3자의 콘텐츠나 매일 변경되는 뉴스 콘텐츠. 또는 단순히 수작업으로 인해 색인 비용이 너무 많이 드는 콘텐츠일 경우가 이에 해당된다.

검색 시소러스는 색인 시점이 아니라 검색 시점에 통제 어휘를 사용한다. 이러한 방법은 정밀도를 낮추고 호출을 향상시킨다.

또한 사용자에게 우선어, 유의어 ,상위어, 하위어, 연관어 조합을 사용할지 묻는 방식으로 관리와 통제 기능을 부여할 수 있다. 사용자는 자신의 검색 범위를 필요에 따라 확장하거나 좁힐 수 있다.

검색 브라우징에 매우 높은 수준의 유연성을 제공하기도 한다. 사용자는 유의어, 계층 관계, 연관 관계를 네비게이션하고, 시소러스 일부 또는 전부를 브라우징하게 할 수 있다. 다시말하면 시소러스는 진정한 의미의 포털이 되어 수많은 콘텐츠에 접근하거나 네비게이트할 수 있는 새로운 방식을 제공한다.

시소러스 검색은 개발과 유지보수 비용이 콘텐츠 양과 관계없이 독립적이라는 이점이 있으나 유의어 대응 관계에서 높은 질을 보장할 수 있게 노력해야 한다.

시소러스 표준

지금은 전통적인 형태의 시소러스에서 네트워크로 연결된 세상에서 사용될 시소러스로 새롭게 패러다임이 변하는 과도기다.

과거의 시소러스 표준은 교육을 통해 시간이 지날수록 효율적이고 효과적으로 도구를 사용한다고 가정한다. 그러나 온라인에서 사용자에게 웹사이트를 사용하기 전에 온라인 검색 기술을 교육 받게 하거나 도서관에서 하라고 할 수 없다.

이러한 새로운 패러다임 속에서 이전 지침 중 오늘날에도 적용해야 하는 것과 그렇지 못한 것을 결정해야 한다.

의미론적 관계

시소러스가 단순히 통제 어휘집과 다른 것은 풍부한 의미론적 관계를 배열한다는 것이다.

동일성

동일한 관계는 우선어와 관련된 용어를 연결하는데 사용한다. 이것은 ‘동의어 관리’라고도 하는데, 단순한 동의어보다는 광범위하다.

동일한 관계의 목적은 용어를 ‘검색 목적의 동일성’으로 정의한 용어로 그룹화하는 것이다. 동의어, 유사 동의어, 두문자어, 약어, 사전적 용어, 일반 철자 오류 형태 등을 포함한다.

동일성은 관련 어휘를 풍부하게 저장하여 사용자와 제품, 서비스, 컨텐츠를 연결하는 통로로 활용할 수 있다.

계층성

계층적 관계는 정보 공간을 범주와 하위 범주로 나누어 상위와 하위 개념을 친숙한 부모-자식 관계로 표현해서 관련성을 부여한다.

계층 관계의 3가지 하위 형태는 아래와 같다.

l 일반(generic) : 생물학 분류와 같은 전통적인 강-종의 관계

l 전체-부분(whole-part) : B는 A의 부분이라는 의미. 예로 엄지 발가락은 발의 부분이다.

l 인스턴스(INSTANCE) : 예를 들면 지중해는 바다의 예다.

연관성

연관 관계는 가장 까다로운 부분이며, 일반적으로 필요에 따라 다른 두 가지 관계 형태가 순조롭게 진행된 이후에 개발된다.

시소러스를 구축할 때 연관 관계는 강하고 묵시적인 의미론적 연결을 의미하며, 유사성이나 계층 관계에 포함하지 않더라도 상관없다.

연관 관계는 강한 묵시적 의미에 기반해야 하며 이러한 관계를 정의하는 것은 매우 주관적인 과정이다.

전자상거래에서 연관 관계는 고객과 관련 제품 그리고 서비스를 연결하는 훌륭한 수단이다. 마케팅 분야 사람이 흔히 말하는 교차 판매(cross-selling)를 가능하게 한다. 예를 들면 “이 바지가 괜찮은데, 이 바지는 이 셔츠와 함께 입으면 잘 어울릴 꺼야”라는 발상과 같다.

우선어

용어 형태

우선어 형태를 정의하려고 시작하면 일단 문법부분에서부터 열띤 논쟁을 시작한다. 명사를 사용할 것인가 동사를 사용할 것인가, 정확한 철자가 무엇인가, 단수형을 쓸 것인가 복수형을 쓸 것인가 등…

ANSI/NISO 시소러스 표준은 이 분야를 매우 자세히 설명하고 있어 이의 지침을 따르되 예외를 인정하려면 그에 합당한 이유가 있어야 한다.

용어 선택

우선어 선택의 문제는 용어 이상의 문제다. 우선 가장 적합한 용어를 선택해야 한다.

내용적 근거와 사용자 근거 사이의 이견은 활용 목적과 시소러스가 어떻게 웹사이트와 통합되는지 고려해서 결정해야 한다.

용어 정의

모호성을 관리할 수 있는 도구로 ‘설명어 한정자(Parenthetical term qualifiers)’는 동형 이의어를 관리할 수 있는 방법을 제시한다.

정의 영역은 영역의 전문성을 높일 수 있는 또 다른 방법이다. 정의 영역은 정의와 매우 흡사하지만, 다른 형태다. 정의 영역이 의도적으로 의미를 하나의 개념으로 한정한다면, 정의는 다수 의미를 포함한다.

정의 영역은 색인 작업자에게 정확한 우선어를 선택할 수 있게 돕는다. 때로는 사용자가 검색하거나 검색 결과를 표시하는데 사용하기도 한다.

용어 전문성

사이트 규모에 따라 기준이 달라지므로 문맥적 상황을 고려해서 적절한 균형을 유지해야 한다. 콘텐츠 양이 증가하면 정밀도를 높이기 위해 복합어를 사용하는 경우가 많아진다. 이러한 경우 복합어를 사용하지 않으면 사용자는 검색할 때마다 수백 만개의 결과를 보게 될 것이다.

콘텐츠 범위도 중요하다. 예를 들어 지식 관리와 관련한 잡지 웹사이트라면 ‘지식 관리 소프트웨어’ 또는 ‘소프트웨어’와 같은 단일어를 사용할 수 있다. 그러나 CNET과 같은 광범위한 IT와 관련한 잡지 사이트라면 ‘지식 관리’와 ‘소프트웨어’를 독립적인 우선어로 사용하는 것이 좋다.

복합 계층 구조

엄격한 의미의 계층 구조는 각 용어가 한 곳에 한 번만 나와야 한다.(생물학의 분류 계통도를 의미) 그러나 모든 것이 체계적으로 들어맞는 것은 아니다.

실용주의자라면 특정 용어가 여러 범주에 동시에 나오는 복합 계층 구조를 어느 정도 허용할 수도 있다. 대규모 정보 시스템을 다루는 경우 복합 계층 구조는 불가피한 문제다. 문서 양이 증가할수록 정밀도를 높이려면 많은 용어를 사전에 조정해야 한다.

예로 야후, 메드라인이 좋은 예이며, 야후에서 @표시는 계층 구조 트리에서 다른 가지에 중복하여 등록되었다는 의미로 사용한다.

그러나 물리적인 체계라면 복합 계층 구조는 문제를 일으킬 수 있다. 예를 들어 미국 의회 도서관 분류법은 도서관에 있는 도서는 서가 한 곳에만 꽂힐 수 있다고 나타낸다.

파셋 분류 체계

하향식 단일 분류 체계의 문제와 한계를 인식하고, 문서와 객체는 다차원(또는 파셋)을 갖고 있다는 개념을 가진 분류법이다.

파셋 방식에서는 “이것을 어떻게 설명할 것인가”를 고민한다.

이 분류법을 개발한 도서관 사서 S.R. 랑가나단은 다섯 가지 보편적인 파셋을 사용할 것을 제안한다. 즉, 개성(Personality), 재료(Matter), 에너지(Energy), 공간(Space), 시간(Time)가 그것이다.

그러나 파셋 방식은 매우 가치 있지만 보편적으로 사용하지는 않는다. 비즈니스에서 공통적으로 사용하는 파셋은 다음과 같이 주제(Topic), 제품(Product), 문서 형태(Document Type), 사용자(Audience), 지역(Geography), 가격(Price)를 들 수 있다.

한 예로 와인닷컴은 파셋 분류 체계를 활용하여 실제 경험을 온라인화했다. 어떤 파셋은 평면적이며(예를 들어 가격) 어떤 것은 계층 구조에서 나타나는 것이다.(형태) 파셋을 검색뿐만 아니라 결과를 정렬할 때도 사용하였으며 몇몇 와인 전문 잡지에서 등급(WE=와인 애호가, WS=와인 대중)을 또 다른 파셋으로 추가했다.

파셋 분류 체계는 역동성과 유연성을 제공한다는 장점이 있다. 기반 구조를 이루는 설명적 메타데이터와 구조가 적절하게 구축되어 있으면, 네비게이션 옵션을 제공하기 위해 수백 가지 방식을 실험할 수 있다.

파셋 분류 체계는 안정적인 기반을 제공하므로 인터페이스를 테스트할 수 있고, 시간을 두고 수정할 수도 있다.

메타데이터, 통제 어휘집, 시소러스가 조만간 대부분의 웹사이트와 인트라넷을 구성하는 주요 요소가 될 것이다. 단일 분류 체계는 좀더 유연한 파셋 방식으로 대체될 것이다.

--> 이 책의 저자 루이스 로젠펠드의 사이트

출처

효율적인 웹사이트 구축을 위한 인포메이션 아키텍처

저자 : 루이스 로젠펠드, 피터 모빌

역자 : 남상신

출판사 : 한빛미디어

출처 : http://blog.daum.net/autumn78/8068135