海量科技大數據知識資源
垂直領域神經網絡機器翻譯技術
多語言多模態數據處理能力
算法訓練引擎
知識圖譜技術
跨語言智能語義檢索技術
面向領域的大語言模型
核心技術
匯聚1.4億全球專利數據,范圍覆蓋130多個國家(地區和組織);整合全球1.6萬家上市企業數據;融合國內全量工商數據、產業數據、科技資訊數據和投融資信息相關數據。 全量數據源跨界融合。
基于億級精選語料訓練科技信息翻譯模型。 機翻技術涵蓋神經網絡、術語、詞典以及規則統計。 最大化提升科技信息機器翻譯質量,構建企業級科技領域專業翻譯能力。
100億句對機器翻譯語料。 基于神經網絡機器翻譯技術、多語語音識別和文字識別技術,高效處理文本、圖像、語音、視頻等多種模態信息。 通用機器翻譯模型語種高達80+。覆蓋歐美、一帶一路沿線、南亞東南亞、東北亞、臺海以及中國少數民族。 為軍事、金融、科技等多個專業領域提供精準、專業語言能力支撐。
算法訓練引擎基于規則、機器學習、深度學習等基礎方法和主流的AutoML、終身學習、跨語言遷移等技術搭建。 根據不同應用場景訓練包括文本分類、情感分析、觀點抽取、熱點聚類、自動摘要、實體抽取等不同自然語言處理算法。 支持中、英、俄、日、越、緬、泰等數十個語種,為機器翻譯、大數據處理和知識圖譜構建提供算法能力。
依托全球海量跨語言科技數據,綜合運用知識抽取、實體歸一、知識計算與推理等技術,構建科研領域知識圖譜。 為知識發現、科技探索、學術畫像和智能評估等應用提供核心數據支撐。
從科技信息技術關聯性出發,智能計算各個科技信息文本實體間相似度,高精度、高效率獲取與該技術文本信息強相關的其他技術文本信息。 通過對海量科技文本信息的智能語義計算,獲取技術全景拓撲關系。 為科技信息的智能發現、精準檢索提供技術支持。
利用自身積累的海量數據,深度學習平臺、跨語言多模態語言處理能力。 開發面向垂直應用領域的大語言模型,為包括科技、能源、知識產權、教育等領域,提供專業、高效、高性能、高可靠的專業領域服務。