세일즈포스, ‘MCPEval’로 실사용 테스트 혁신

Salesforce/세일즈포스 동향 Check✅ 2025. 8. 20. 15:26

안녕하세요.

SBT Global입니다.

세일즈포스가 공개한 오픈소스 도구 'MCPEval'

함께 읽어보시죠📜

MCPEval: AI 에이전트 평가를 혁신하는 오픈소스 도구

AI 에이전트의 개발이 급속도로 진화하는 가운데, 세일즈포스가 공개한 새로운 오픈소스 도구 'MCPEval'이 기업들의 AI 평가 체계를 획기적으로 바꿔 놓고 있습니다.

MCPEval은 현재 기업들이 널리 도입하고 있는 '모델 컨텍스트 프로토콜(Model Context Protocol, MCP)'이라는 표준 기술을 기반으로, AI 에이전트가 실제로 툴을 사용하는 방식까지 자동으로 평가합니다.

전통적으로 AI 평가는 정적인 벤치마크나 수작업 태스크에 많이 의존했으나, MCPEval은 에이전트의 행동 궤적과 툴 사용 데이터를 세부적으로 수집·분석하여 실제 산업 환경에서의 성능을 정밀하게 측정할 수 있습니다.

이를 통해 기업은 평가를 위한 별도의 파이프라인 구축 없이, 자동화된 태스크 생성부터 수행 평가, 결과 리포트까지 한 번에 진행할 수 있는 원스톱 체계를 갖게 됩니다.

MCPEval의 구조와 AI 혁신 효과

MCPEval은 크게 세 가지 단계로 구성되어 있습니다.

첫째, MCP 서버 내 툴과 모델을 선택하면, 태스크 생성 AI가 실제 툴 사용 시나리오를 자동으로 만들어냅니다.

둘째, 이 태스크를 실제로 에이전트가 수행해 성공궤적(ground truth trajectory)을 확보하고, 부족하거나 실패한 경우 반복적으로 태스크를 정교화합니다.

마지막으로, '툴 호출 매칭'이나 'LLM 판단' 등 다양한 분석 방법을 통해 모델의 행동 흐름과 성공률, 맥락 이해력 등을 종합 평가합니다.

모든 데이터와 결과는 즉시 리포트로 정리되어, 실제 현장 환경에서 에이전트가 잘 작동하는지, 어디를 개선해야 하는지 객관적으로 확인할 수 있습니다.

MCPEval은 GPT-4 같은 최신 대형언어모델(LLM)과 연동해 다양한 환경에서도 평가가 가능하며 정확도를 높였고, 세일즈포스는 오픈소스 툴킷을 통해 여러 조직과 모델을 자유롭게 접목시킬 수 있도록 지원합니다.

각 기업은 자신이 평소 활용하는 LLM을 선택해 보다 친숙한 환경에서 에이전트를 검증할 수 있습니다.

결국 MCPEval은 AI 에이전트 도입을 본격화하는 기업들에게 있어 신뢰성과 성과 검증이라는 핵심 관문을 통과하기 위한 유력한 도구로 자리 잡을 전망입니다.

실제 현장에서 쓰일 환경에서 직접 작동하며 생긴 데이터를 그대로 수집하고 분석할 수 있는 점이 MCP 기반 AI 기술의 성공 확산에 중요한 역할을 하게 될 것으로 보입니다.

위 포스팅에 참고된 내용은 아래 기사에서 확인하실 수 있습니다.

AI 평가의 판을 바꾼다…세일즈포스, ‘MCPEval’로 실사용 테스트 혁신 - TokenPost

AI 에이전트의 개발이 급속도로 진화하는 가운데, 세일즈포스가 공개한 새로운 오픈소스 도구 'MCPEval'이 기업들의 AI 평가 체계를 획기적으로 바꾸고 있다. 현재 기업들이 널리 도입하고 있는 모

www.tokenpost.kr

세일즈포스에 관심 및 궁금한 점이 있으시다면, 에스비티 글로벌로 문의해주세요!

저작자표시 비영리 변경금지 (새창열림)

SBT Global[에스비티 글로벌] 공식 블로그