数据挖掘
-
谷歌AI开源张量计算库TensorNetwork,计算速度暴涨
为了解决这个问题,人们利用名为“张量网络”的数据结构,可以专注于与现实问题最为相关的量子态——低能量状态,而忽略其他不相关...
2019-06-14 00:09:15 -
大数据独角兽 Cloudera 股价腰斩,Hadoop将何去何从
6月6日美股开盘后,大数据公司Cloudera股价暴跌43%,一周前,曾经同为大数据独角兽的MapR也传出了面临重大危机的消息。围绕Hadoop进行商业化...
2019-06-14 00:08:46 -
构建AI前的数据准备,SQL要比Python强
作为一名 Web 开发人员,我第一次与数据库和 SQL 产生交集是使用对象关系映射(ORM)。我使用的是 Django 查询集 API,这个界面用户体验很好。...
2019-06-14 00:08:33 -
eBay如何打造基于 Apache Druid 的大数据实时监控系
在 eBay 中,我们将监控技术栈从传统的本地架构转换为基于 Druid 的实时监控系统。在本文中,我们将讨论如何过渡到新技术栈,以及它为我...
2019-06-14 00:07:42 -
Python称霸在即,3年后将取代Java成为最受欢迎开发
最新Tiobe月度排行中Python排名第三,评分为8 5%,比去年同期上升2 77个百分点。Tiobe分析师认为这种趋势将持续下去,Python可能会在三到四年...
2019-06-14 00:07:25 -
基于Kafka的实时计算引擎如何选择?Spark or Flink
目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟。以 Spark 和 Flink 为首的实时计算引擎,成为实时计算场景的重点...
2019-06-14 00:07:09 -
Pandas必备技能之“时间序列数据处理”
时间序列数据Time Series Data是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。...
2019-06-14 00:06:59 -
优酷背后的大数据秘密
在本文中优酷数据中台的数据技术专家门德亮分享了优酷从Hadoop迁移到阿里云MaxCompute后对业务及平台的价值。...
2019-06-14 00:06:46 -
独家解读!京东高可用分布式流数据存储的架构
笔者作为架构师,全程参与了 JournalQ 和 JournalKeeper 的设计和开发。这篇文章中,我将跟大家分享在开发这两款产品过程中的一些技术心得和...
2019-06-14 00:06:33 -
基于大数据的舆情分析系统架构(架构篇)
大数据时代,除了媒体信息以外,商品在各类电商平台的订单量,用户的购买评论也都对后续的消费者产生很大的影响。...
2019-06-14 00:06:20 -
百亿级全网舆情分析系统存储设计
这个全网舆情分析系统,可以实现百亿条网页数据的存储、实时新增网页的抓取和存储并能对新增网页做实时的元数据提取。有了提取结果...
2019-06-14 00:06:09 -
SQL on Hadoop 在快手大数据平台的实践与优化
整理自快手大数据架构工程师钟靓近日在 A2M 人工智能与机器学习创新峰会的演讲分享《SQL on Hadoop 在快手大数据平台的实践与优化》。...
2019-06-14 00:05:58 -
为啥Spark 的Broadcast要用单例模式
很多用Spark Streaming 的朋友应该使用过broadcast,大多数情况下广播变量都是以单例模式声明的有没有粉丝想过为什么?...
2019-06-14 00:05:31 -
SparkSQL连接查询中的谓词下推处理
SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的...
2019-06-14 00:05:14 -
影响数据中心正常运行时间的四种网络攻击
据Neustar Research 4月发布的报告声称,从2018年第一季度到今年第一季度,规模不小于100 Gbps的DDoS攻击数量猛增了近1000%。...
2019-06-09 17:59:52