资料搜集是个相当繁琐与累的工作,也是数据分析入门的基本,良好的信息资料搜集能力有利于我们快速了解数据的基本情况,为后续的调研及一手资料的获得打下较好的基础。
一、搜索引擎(重点掌握)
搜索引擎是我们信息资料搜集的最重要的渠道之一,用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个,近期还有较多行业型搜索冒出来,需找专业型行业资料可以使用行业型搜索引擎。
由于每个搜索引擎都有一定的局限性,可以把要搜索的关键词在多个搜索引擎试一下,可能会搜出你意想不到的结果。
大家对国内的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主题的资料,不同的人所搜出来的结果可能就天差地别了,主要原因在于如下两点:
1.搜索关键字的选择
2.搜索技巧
主要是针对百度、google等搜索引擎一些高级搜索技巧。常用技巧主要有如下几个方面:
(1)文件类型搜索:使用filetype,如在百度或google中键入“filetype:pdf大数据”搜索出有关大数据内容pdf内容,而且这些文档基本都是可直接下载。还可以变换为其他的如“filetype:doc”、“filetype:ppt”
、“filetype:xls”等等,注意其中的冒号为英文的冒号,一定要变换为英文冒号。
(2)定位于哪个网站上搜索:使用site,如在百度或google中键入“大数据空格site:sina.com”,则在sina.com搜索有关大数据的一些资料信息,这个特别适用针对某些信息可能在哪些网站上出现的一个快速搜索方法,注意冒号也是英文的,网站名称也不用加www。
(3)精确匹配搜索:使用“”,如在百度中键入“大数据行业”,表示搜索“大数据行业”五个必须联在一起的,如果不加“”,搜到的为大数据及行业两个词并列显示结果,没有这么精确匹配。
(4)限制性的网页搜索:使用intitle,如在百度键入“intitie:大数据”,限定于搜索标题中含有“大数据”网页,如果输入“intitie:大数据市场规模”限定于搜索标题中含有“大数据”和“市场规模”的网页。
附:搜索引擎推荐
Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的数据。
Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。
与google比较了一下发现,能搜索到一些google搜索不到的好东东。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。
Google在同一水平的搜索引擎。是Amazon.com推出的,Webresult部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试,不过缺憾是现在书本内搜索没有中文内容。
严格意义上讲不是搜索引擎,是连接搜索引擎和网络用户的信息立交桥。新一代的搜索引擎应运而生,Ixquickmeta-search正是目前最具光芒的新星。但是对于大多数国内用户来说,Ixquick还很陌生。Ixquick众多独特的功能我不一一介绍了,只介绍我们最关心的,搜索数据库密码。
cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO密码几分钟就可找一大堆.
OJOSE(OnlineJournalSearchEngine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。
一个关于计算机和信息科学的搜索引擎。
专家个人主页搜索引擎。
14)www.aol.com
里面的搜索引擎功能由google提供,搜索结果与google一样,如果google无法登陆,可以用这个网站代替。
二、数据库
1.商业数据库
商业数据库大多为金融投资所用,主要分为国内与国外数据库两大类。
(1)国内商业数据库
国内数据库主要有如万德、恒生聚源、锐思数据库、CSMAR数据库、巨潮数据库等。目前万德数据库主要定位于国内高端客户,市场占有率较高,80%左右,当然其售价较高。恒生聚源也定位为机构客户,性价比较高,售价要比万德便宜的多。CSMAR数据库定位于学术与高校,其中金融数据比较全,强大。锐思数据库定位于学术,质量一般。巨潮数据库为深交所旗下数据库,有一定的特殊优势。
(2)国外商业数据库
国外数据库主要有彭博、路透社、CEIC、OECD、HaverDatabase、ThomsonFinancialOneBanker等,国外数据库中彭博是比较全也大的,在国内销售也较好,但是售价奇贵。一般不做国际市场研究,大多用不到国外数据库,毕竟国外数据库公司对国内的行业数据及公司数据不如本土数据库公司的做得好。
2.学术数据库
学术数据库基本为高校、研究机构所用,也分为国内与国外两大类,学术数据库中一些学术论文、行业数据、统计年鉴还是有用的,缺点就是其中有些数据的相对较旧,无法做到实时更新。
(1)国内学术数据库
中国知网:国内最大学术数据库,包括期刊、学位论文、统计年鉴等。
万方数据:仅次于中国知网,包括期刊、学位论文等。
人大复印资料:期刊、论文等。
维普:期刊、论文等。
中经网:有较多行业研究报告,宏观数据较全。
国研网:数据较为权威,有些报告可以一看。
上海公共研发平台:可以注册,人工审核,内包含较多数据库。
(2)国外学术数据库
EBSCO:较全的一个数据库,内包含较多的商业数据,好用
以上大致介绍了国内的商业及学术数据库,但这些数据库都是通过收费或学校账号才能使用,对于平时临时研究用的一些人,没有必要去购买,下面介绍一些免费可用的数据库。
数据汇
国内的宏观数据,国外的也有一部分,可以导出来,免费好用。
数据圈:
免费共享平台,行业研究报告,统计年鉴等;
FRED:
OECD:
联合国图书馆。
台湾学术数据库:
台湾大学电子书:
三、共享文库
首先也非常感谢共享文库的出现,使得大家搜集信息方便了许多,随最早的豆丁、百度、爱问等共享文库的出现,随后到如今出现许多共享文库,不过很多文库规模较小,文档数量较少。
(1)国内主要文库
国内文档数据量最大的共享文库,综合型的,好用。。
其收费的盈利模式导致用户数量逐年减少,文档质量也不如百度文库。
爱问共享:
综合型文库,里面也时常发现好的行业研究报告,电子书籍等。
综合型文库,后起之秀,文档数量和质量较好。
以管理、行业文档为主。
全球最大的中文IT社区。
以创业投资、证券市场等文档为主的专业型文库,刚起步状态。
(2)国外文库
四、专业网站
在共享文库未出现以前,专业论坛一直担任着查找资料的好去处,的确国内的一些论坛经过这么多年的运营,已经积累大量有用文档。下面主要介绍我们常用的专业论坛。
经济学专业论坛,其中统计年鉴、行业报告、国内外数据等有特色。
3.随意网-经济论坛:
新建网站,有些内容尚可。
股票券商研究报告。
股票券商研究报告,目前已经收费了,只能查询有哪些最新报告了,无法下载。
6.博瑞金融:
金融行业专业型论坛。
7.华尔街社区:
国内专业的金融论坛。
专业型为投行人士探讨而设立的论坛。
9.春晖投行在线:
10.中华股权投资论坛:
pe投资专业型论坛。
其他专业网站:
投行网站
各大咨询公司报告
五、政府部门
这个不用多说,大家很多人浏览过。
2.工业和信息化部:
6.国家知识产权局:
8.巨潮信息网:
六、专业网站
1.上海证券交易所:
其中研究出版栏目中有些研究报告
其中研究/刊物中有研究报告
新三板挂牌公司的转让及信息披露。
4.香港证券交易所:
5.台湾证券交易所:
6.新加坡证券交易所:
8.纳斯达克证券交易所:
七、如何寻找国外资源
由位于华盛顿的美国政府印刷办公室出版、经济顾问委员会撰写的《总统经济报告》(EconomicReportofPresident),提供了有关美国当前经济形势的描述和主要宏观经济变量数据。相当多的数据都可以追溯到1959年,甚至个别的可追溯到1929年。可能你已经留意到了,好多有关美国的图形,都是采用《总统经济报告》(2005)所附数据生成的。这些数据可以免费下载,网址是www.access.gpo.gov/eop/。
如果想获得最近数据的详细资料,一个不错的选择是,美国商务经济分析局每月出版的《当代商业纵览》(SurveyofCurrentBusiness)。网址是,www.bea.doc.gov。
2.如何搜集国外其他经济体数据
《OECD经济展望》(OECDEconomicOutlook),每年出版两次,提供许多跨国宏观经济数据。这些数据一般都上溯到20世纪70年代,而且具有很好的一致性。
《OECD就业展望》(OECDEmploymentOutlook),每年出版一次,专门提供劳动力市场的数据。《OECD历史统计》(OECDHistoricalStatistics),不定期出版,将当期数据和过去数据放在一起。
八、分行业网站
1.互联网及传媒
(1)资讯类
媒介360
(2)数据类
中国互联网络信息中心
艾瑞网:
游戏产业网:
大数据导航
2.医药行业
(1)样本医院数据
国外样本医院数据彭博上有类似PDB的数据库。
(2)药品中标价格
百度虫,药智网,健康网(付费),米内网(付费)。
(3)药品招标政策
各省药品招标平台。
(4)医疗器械数据
基本没有,米内网有付费数据库(没见过)、海关信息网。
(5)中药材数据
中药材天地网、万得的EDB、中药材东方网。
(6)药品审批
药智网、药监局、CDE网站。
(7)医药行业政策
国家药监局、发改委、中国政府网、卫计委等等。
(8)国内外行业协会和咨询机构
例IMSHealth、XX医药协会。
赛柏蓝、米内网、生物谷、新康界、医谷、药友汇、丁香园、动脉网、贝壳社。
3.银行业
新浪财经finance.sina.com.cn/
(2)公告、数据查找
中国货币网
统计局www.stats.gov.cn/
中国人民银行www.pbc.gov.cn/
上海证券交易所www.sse.com.cn/
深圳证券交易所www.szse.cn/
最常用wind股票数据库
4.有色金属
(1)日报网站
宏观新闻:
央行快讯
行业新闻:
中国金属网
上海有色网
(2)其他常用站
高工锂电
深交所互动易(查看投资者互动资料)
中金网(有色金属)
.../articles/gfms.html。
格隆汇港股
九、其他
除以上介绍的几种资料搜集渠道外,我们也结合近年it科技的发展,在博客、微博、空间等去搜索。
2.博客:国内有网易、新浪、搜狐、百度空间、和讯等博客网站,有些数据也可以从搜索博客中找到。
3.微博:新浪微博及腾讯微博,用数量极大,其中有些数据可以通过搜索查询到。
第302篇数据分析展示就用DataHunter
-End-
*本文转载自公众号:社科方法网
关于DataHunter
DataHunter是一家专业的数据分析和商业智能服务提供商,注册于2014年。团队核心成员来自IBM、Oracle、SAP等知名公司,深耕大数据分析领域,具有十余年丰富的企业服务经验。
DataHunter旗下核心产品智能数据分析平台DataAnalytics、数据大屏设计配置工具DataMAX已在业内形成自己的独特优势,并在各行业积累了众多标杆客户和成功案例。
成立以来,DataHunter就致力于为客户提供实时、高效、智能的数据分析展示解决方案,帮助企业查看分析数据并改进业务,成为最值得信赖的数据业务公司。