기계학습데이터 활용맵 Beta

과학기술 분야의 기계학습 데이터 셋과 AI 연구와 관련된 데이터기반 활용 사이트를 안내합니다.

기계학습 데이터 활용 현황

KISTI는 과학기술 분야의 글로벌 경쟁력 강화를 위해 고품질의 학술논문 원문을 인공지능(AI) 개발에 필수적인 AI 데이터로 대규모 구축하였으며, 이를 활용하여 ScienceON 서비스에 적용하였습니다.

과학기술 기계학습 데이터 개요 및 활용

  • 개요

    국내 논문 PDF 대상으로 메타데이터, 표/그림, 참고문헌 등을 제외한 본문(전문) 텍스트 정보를 기계학습이 가능한 형태로 구축

  • ScienceON 활용

    검색에서 검색 키워드가 출현한 본문내용을 확인하거나, 논문요약과 질의응답에서 스니펫을 구성하는데 전문 텍스트를 활용함

  • 개요

    494,533건

  • 개요

    국가 R&D 보고서 원문에서 추출한 표/그림을 대상으로 연구보고서 본문에 있는 설명데이터를 추출하여 데이터베이스로 구축

  • ScienceON 활용

    ScienceON 통합검색에서 표/그림 검색 적용함

  • 개요

    3,547,117건

  • 개요

    국내 논문 중에서 한글 논문에 대한 기계 독해 과제를 위한 데이터로, 질의와 응답이 한 쌍으로 이루어진 데이터

  • ScienceON 활용

    논문 검색 결과 목록과 논문 상세페이지에서 QA정보를 제공하고, 논문 QA 검색 베타서비스에 적용함

  • 개요

    276,642건

  • 개요

    국내 논문의 연구목적, 연구방법, 연구결과에 대한 9가지 의미에 따라 문장을 선별하여 태깅

  • ScienceON 활용

    눈문 검색 결과 목록과 논문 상세페이지에서 본문에 대한 요약정보를 제공하고 AI 논문 요약 베타서비스에 활용함

  • 개요

    155,767건

과학기술 기계학습 데이터셋 서비스 정보