大数目~说说Hadoop

File:      W32TextI.txt
Name:      Win32文件消息处理导航
Author:    zyl910
Version:   V1.2
Updata:    2006-5-31

Hadoop是1个由Apache基金聚会场馆支付的分布式系统基础架构。

  从Windows
3000起始,Windows系统对Unicode多语言帮助性格外好,有那些有力API。

用户能够在不打听分布式底层细节的情形下,开发分布式程序。丰富利用集群的威力实行火速运算和储存。

API函数集

 Hadoop达成了四个分布式文件系统(Hadoop Distributed File
System),简称HDFS。HDFS有高容错性的特色,并且布署用来安插在物美价廉的(low-cost)硬件上;而且它提供高吞吐量(high
throughput)来走访应用程序的多寡,适合那2个拥有超大数据集(large data
set)的应用程序。HDFS放宽了(relax)POSIX的须求,能够以流的方式拜访(streaming
access)文件系统中的数据。


National Language Support  
本地语言支持。用Locale概念来管理不同文化的数值、货币、日期时间等本地文化特性。  
Windows 95、Windows NT 3.5

Unicode and Character Sets  
Unicode字符集函数。使用CodePage概念将不同编码的多字节字符串与Unicode字符串进行转换。  
Windows 95、Windows NT 3.5

Multilingual User Interface  
多语言用户界面。The Multilingual User Interface allows applications to
separate language-specific resources from language-neutral code for
supported user interface languages. This overview describes the
Multilingual User Interface and explains how to use it in your
applications.  
Windows Vista内置,Windows 2000以上可以安装支持包  
MSDN:
<http://msdn.microsoft.com/library/en-us/intl/mui_entry.asp?frame=true>

Fonts and Text  
(GDI)字体与文本。提供了基本的字体与文本排版功能。  
Windows 95、Windows NT 3.5

Font Embedding  
(GDI)字体嵌入。从OpenType字库得到Unicode排版的许多细节信息。  
Windows 98、Windows 2000

Uniscribe  
Unicode复杂文本排版。专用用来处理Unicode复杂文本排版,如西方语言的组合、预构字符、阿拉伯语的双向文本排版……  
IE 5.0,Windows 2000内置。

Keyboard Layout  
键盘布局。处理西方字符,只是一个简单的键盘按键映射机制。  
Windows 95、Windows NT 4.0

Input Method Manager  
输入法管理。与输入法沟通的API。  
Windows95只支持ANSI,Windows 98、Windows NT 4.0是ANSI、Unicode都支持

Text Services Framework  
文本服务框架。处理键盘、输入法、手写、语音输入的通用框架。  
Windows XP内置,但其它平台可以安装TSF支持包。

Active Input Method Manager  
活动输入法管理。IE提供的的输入法管理增强型解口,比如在简体中文Win98平台下可以在IE中使用仓颉输入法。  
IE 4.0

MLang  
多语言。IE中用到的一套多语言编码转换API。  
IE 4.0


这些API的具体使用请查看MSDN:<http://msdn.microsoft.com>

 

书籍推荐

Hadoop的框架最基本的计划正是:HDFS和MapReduce。HDFS为海量的数目提供了储存,则MapReduce为海量的数码提供了总计。

国际化软件开发(原书第③版)
http://www.china-pub.com/computers/common/info.asp?id=14172
  【原书名】 Developing International Software,Second Edition
  【原出版社】 Microsoft Press 
  【作者】 (美)Dr.International 
  【译者】 沈凤 
  【丛书名】 微软集团宗旨技术书库 
  【出版社】 机械工业出版社  【书号】 7-111-12482-0
  【开本】 16开 【页码】 357
  【出版日期】 二〇〇二-8-1  【版次】 2-1 

优点

Hadoop是1个可见对大气数据进行分布式处理的软件框架。 Hadoop
以一种保险、高效、可伸缩的法子展开数据处理。

Hadoop
是保证的,因为它假诺总括成分和仓库储存会破产,由此它爱慕七个干活多少副本,确定保障能够针对破产的节点重新分布处理。

Hadoop 是飞快的,因为它以互动的办法行事,通过并行处理加快处理速度。

Hadoop 依旧可伸缩的,能够处理 PB 级数据。

此外,Hadoop 依赖于社区服务,由此它的资本比较低,任什么人都能够运用。

Hadoop是一个力所能及让用户轻松架构和使用的分布式总括平台。用户能够轻松地在Hadoop上付出和平运动作处理海量数据的应用程序。它至关心器重要有以下多少个亮点:

  1. 高可信赖性。Hadoop按位存款和储蓄和拍卖数量的能力值得人们相信。

  2. 高增加性。Hadoop是在可用的微型总括机集簇间分配数据并形成计算职务的,那么些集簇能够方便地扩大到数以千计的节点中。

  3. 高效性。Hadoop能够在节点之间动态地活动数据,并确定保障各样节点的动态平衡,因而处理速度非常的慢。

  4. 高容错性。Hadoop能够活动保存数据的多少个副本,并且能够自行将破产的职务重新分配。

  5. 低成本。与一体机、商用数据仓库以及QlikView、Yonghong
    Z-Suite等数据集市相比,hadoop是开源的,项指标软件开销由此会大大下落。

Hadoop带有用Java语言编写的框架,由此运维在 Linux
生产平台上是分外理想的。Hadoop 上的应用程序也足以行使别的语言编写,比如
C++。

hadoop大数量处理的含义

Hadoop得以在大数额处理利用吉林中国广播集团泛应用得益于其自个儿在数码提取、变
形和加载(ETL)方面上的后天优势。Hadoop的分布式架构,将大数目处理引擎尽恐怕的濒临存款和储蓄,对诸如像ETL那样的批处理操作绝对方便,因为类似
那样操作的批处理结果可以直接走向存款和储蓄。Hadoop的MapReduce功用完成了将单个职分打碎,并将零散职责(Map)发送到两个节点上,之后再以
单个数据集的款型加载(Reduce)到数据仓Curry。

 

子项目

Hadoop Common:
在0.20及在此之前的版本中,包含HDFS、MapReduce和其他项目集体内容,从0.21开端HDFS和MapReduce被分手为单独的子项目,其他内容为Hadoop
Common

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop
Distributed File System)

MapReduce:并行总括框架,0.20前使用 org.apache.hadoop.mapred
旧接口,0.20版本伊始引入org.apache.hadoop.mapreduce的新API

HBase: 类似谷歌(Google)BigTable的分布式NoSQL列数据库。(HBase和Avro已经于二零零六年7月变成一级Apache 项目)

Hive:数据仓库工具,由Instagram进献。

Zookeeper:分布式锁设施,提供类似谷歌Chubby的效应,由推文(Tweet)奉献。

Avro:新的数量种类化格式与传输工具,将稳步取代Hadoop原有的IPC机制。

Pig: 大数目解析平台,为用户提供三种接口。

Ambari:Hadoop管理工科具,能够火速的督察、布署、管理集群。

Sqoop:于在HADOOP与观念的数据库间展开数据的传递。

网址推荐
~~~~

三伯总括

由此地方相关阅读,让我们领略到hadoop是2个小幅度的工具集,里面有分布式文件存款和储蓄,并行云总结,分布式事务锁,大数额解析等一密密麻麻工具,确实够你喝一壶的!

本来,假设您以为它好,依旧越早迈出第三步越好!

 

http://www.pkucn.com/forumdisplay.php?fid=29
北大汉语论坛 www.pkucn.com -> 汉语音讯处理

http://www.unicode.org/
Unicode组织

http://www.cjk.org/
日中国和南朝鲜辞典切磋所

http://www.microsoft.com/globaldev/
微软·国家化费用

http://www.microsoft.com/typography/
微软·字库与排版

http://www.microsoft.com/typography/SpecificationsOverview.mspx
微软·字库与排版·TrueType与OpenType字库标准

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图