Skip to content

Latest commit

 

History

History
56 lines (47 loc) · 1.68 KB

6.4.1-html-strip.md

File metadata and controls

56 lines (47 loc) · 1.68 KB
description
이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민([email protected])에게 사용 내용을 알려주시기 바랍니다.

6.4.1 HTML Strip

입력된 텍스트가 HTML 인 경우 HTML 태그들을 제거하여 일반 텍스트로 만듭니다. <>로 된 태그를 제거할 뿐 아니라 &nbsp; 같은 HTML 문법 용어들도 해석합니다. 입력 값은 html_strip 입니다.

다음은 HTML Strip 캐릭터 필터를 이용해서 <p>I&apos;m so <b>happy</b>!</p> 문장을 처리 한 결과입니다.

{% tabs %} {% tab title="request" %} {% code title="char_filter 를 이용해서 html 문장 처리" %}

POST _analyze
{
  "tokenizer": "keyword",
  "char_filter": [
    "html_strip"
  ],
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

{% endcode %} {% endtab %}

{% tab title="response" %} {% code title="char_filter 를 이용해서 html 문장 처리 결과" %}

{
  "tokens" : [
    {
      "token" : """

I'm so happy!

""",
      "start_offset" : 0,
      "end_offset" : 32,
      "type" : "word",
      "position" : 0
    }
  ]
}

{% endcode %} {% endtab %} {% endtabs %}

모든 태그들이 제거되고 해석되어 "I'm so happy!" 라는 문장으로 변경 된 것을 확인할 수 있습니다.

{% hint style="warning" %} 애널라이저는 항상 최소 1개의 토크나이저를 필요로 하기 때문에 캐릭터 필터만 적용하면 오류가 발생합니다. 위 예제에서는 keyword 토크나이저를 같이 사용했습니다. {% endhint %}