가드레일 설정

가드레일 기능은 사용자가 입력하는 메시지 중 유해하거나 부적절한 내용을 사전에 필터링하여, LLM (대규모 언어 모델)에게 송신되지 않도록 차단하는 기능입니다. 이를 통해 사용자와 시스템 모두 안전한 환경을 유지할 수 있습니다.

  • 설정 방법: 보안 > 가드레일 탭으로 이동하여 차단하고자하는 카테고리를 선택합니다(예: 폭력, 혐오 발언, 성적 콘텐츠 등). 필터링에 사용할 카테고리를 선택하여, 특정 유형의 유해 콘텐츠를 차단할 수 있습니다.

  • 사전 차단: 유해한 내용이 감지되면, 해당 메시지가 LLM에 전달되지 않습니다.

  • 경고 및 안내: 유저가 부적절한 내용을 입력하면 경고 메시지가 표시되며, 새로운 메시지를 입력하도록 안내합니다.

작동 방식

  1. 사용자가 메시지를 입력합니다.

  2. 입력된 메시지에 유해한 내용이 감지되면 경고 메시지가 표시됩니다.

  3. 사용자는 새로운 메시지를 입력하도록 안내받습니다.

예시로 핸드폰 번호를 가드레일 필터링으로 설정해 보겠습니다.

유저가 대화 내용에 핸드폰 번호를 입력하면, 송신 버튼 대신 '입력하신 내용에 유해하거나 부적절한 내용이 포함되어 있습니다. 메시지를 새로 입력해 주세요.'라는 경고 메시지가 표시됩니다.

  • 가드레일 기능은 지속적으로 업데이트되어 최신 유해 콘텐츠 유형을 감지합니다.

  • 사용자 경험을 개선하기 위해 필터링 기준은 관리자에 의해 조정될 수 있으며 필터링하고자 정규식 표현이 별도 존재하는 경우, 담당 어카운트 매니저에게 연락해 주세요.

Last updated