文本与数据挖掘(TDM)政策
为支持科研创新与开放科学发展,SCI-OPEN积极鼓励在合法与合规的框架下开展文本与数据挖掘(Text and Data Mining, 简称TDM)活动。本政策旨在明确用户在平台内容上进行TDM的许可范围、使用方式、技术路径与责任界限,保障作者权益的同时,促进数据驱动的学术研究。
一、适用范围
本政策适用于所有在SCI-OPEN平台上正式发表的内容,包括但不限于:
- 期刊论文全文(包括开放获取与非OA内容)
- 会议论文、专著章节
- 元数据(标题、摘要、关键词、作者信息、DOI等)
- 图表、附录、脚注中所包含的结构化数据
二、许可原则
1. 对于开放获取文章(Open Access)
所有以CC BY、CC BY-NC等知识共享协议发布的文章,TDM活动在不违反许可条款的前提下,无需额外申请即可进行。用户须遵守相应的署名、非商业等限制条件,并明确标注原始来源。
2. 对于非开放获取文章(Subscription Content)
仅限在以下条件下进行TDM:
- 用于非商业性科研目的(如学术研究、教育项目、课题分析);
- 不得将抓取或分析结果用于再分发、商业化产品、搜索引擎集成或数据库销售等;
- 所得数据仅限内部使用或在授权范围内发表学术成果,须注明出处及版权归属。
如需进行大规模或自动化抓取,需事先联系平台获得专门授权。
三、获取方式
1. 元数据使用
SCI-OPEN对外提供高质量元数据访问服务,包括DOI、作者、摘要、关键词、发表时间、引用等内容,用户可通过开放API或OAI-PMH协议获取,具体接口权限可通过联系平台申请。
2. 全文访问
- 对开放获取文章:用户可直接使用PDF或HTML版本进行分析;也可使用平台提供的可挖掘格式(如XML、JSON)。
- 对非OA文章:如需大规模访问,请联系版权部门申请临时数据包、下载通道或TDM专属授权协议。
四、技术规范与合规要求
1. 所有TDM行为须遵守平台爬虫协议(robots.txt)及服务器访问频率限制,避免影响平台服务稳定性。
2. 禁止使用绕过机制获取付费内容、绕开登录验证或复制整站结构的行为。
3. 结果引用时,需明确注明文章标题、作者、期刊名、DOI等信息,尊重内容原始出处。
4. 平台保留对恶意爬虫、滥用API、违反协议行为采取技术封禁与法律追责的权利。
五、授权与合作
SCI-OPEN欢迎高校、科研机构、数字人文团队等与平台建立TDM合作关系。我们可提供:
- 批量数据包(OA内容、历史元数据等)
- API接口定制与访问授权
- 项目级TDM协议签订(含明确使用范围、成果形式与数据安全协议)
- 联合研究、工具开发与成果发布支持
请发送合作意向至:tdm@sci-open.org
六、免责声明
- SCI-OPEN不对用户在TDM活动中因数据解释、模型偏误或技术失效所导致的研究结论、社会影响或第三方责任承担任何法律义务。
- 本政策不影响作者对其作品享有的著作权、署名权与其他法定权益。
七、政策更新
本TDM政策将根据国际出版伦理标准、开放科学趋势及用户需求持续更新。最新版本将公布于官方网站政策页面。
---
如需个性化数据访问、开发API支持、或与具体项目对接TDM授权协议,请联系我们:
TDM项目协调人邮箱:tdm@sci-open.org
平台技术支持:support@sci-open.org
官方网址:www.sci-open.org