还剩10页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
时代的数据处理技术Al陈文光清华大学/蚂蚁技术研究院图风控方案中的在线离线一体化解决方案StreamingData Write以在线数据库内容为准,同步到近线系统ServingRulebasedServing DecisionMaking避免不同语言语义的不一致性•TuGraph DB:分布式图数据库,支持国际标准图查询语言ISO-GQLTuGraphDataflow:流图计算系统,支持国际标准图查询语言ISO-GQL•很多细节,比如Nodelimit趋势二向量数据库与关系数据库一体化SQL查询向量查询OceanBase蚂蚊VSAG库大数据数据量,数据生成的速度和多模态inzettabytes数据量和数据生成速度•Volume Velocity图片,文档,图,时序,交易•.Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025©Statists2021https://www.statista.com/statistics/871513/worldwide-Jata-created/数据处理的深度也在增加https://medium.corTVhackernoon/the-ai-hierarchy-of-needs-l8f111fcc007大模型崛起引领大数据新需求吴恩达的“二八定律••Vectordatabase深度学习应当从Model-centric向Data-centric转变Nearestneighbors吴息达AndrewNg.UserGPT-12018年6月
1.17亿约5GBGPT-22019年2月15240G8GPT-32020年S月17so亿45TBGPT-
3.5ChatGPT2022年11月千亿级百TB级?GPT-42023年3月万亿姬(估)未被H=BetterAl大模型需要大数据Prompt,•如何获得更多数据?如何提升数据质量?如何高效处理海量数据?大模型崛起引领大数据新趋势一体化ModelServingPyTorch.TFOnhneModelUpdatePyTorch.TF实时链路离线链路BatchTrairwg/TestPyTorch.TF一体化2-in-1Architecture:TPAP可以独立部署,也可以分布式部署用于事务和分析工作负载的一份数据副本与多租户高度兼容,实现资源隔离ZhifengYang.Quanqing Xu.Shanyan Gao.Chuanhui Yang.Guoping Wang.Yuzhong Zhao.Fanyu Kong.Hao Liu.Wanbong Wang,Jinliang Xiao.OceanBase Paetica:A HytxidShared-nothing/Shared-everythingDatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,1612:3728-3740,
2023.:分布式数据库OceanBase HTAP实时数据分析和决策对于企业来说非常重要OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)Traditionalprocessing HTAPprocessingStep1OLTP复杂查询优化TPAP同一套引擎requests OLTP*OLAP•自动计划不断•同时处理TP和AP查询requests演变线性化实时OLAP处理能力集群级别的并发控制Step2OLAP OceanBaserequestscluster•水平可犷展性(数百亿条数•优化赞舞分配和流■控制的灵活据记录)和低延迟(秒)策略.成本优化,雉护方便图风控方案中的在线离线一体化问题分布式图数据库支持自定义图查询•StreamingData Write语言GQueryServingRulebasedServingDecisionMaking流图计算系统,支持在线近线数据不一致模型效果不一致•Gremlin。
个人认证
优秀文档
获得点赞 0